登录站点

用户名

密码

 详细剖析华为云应用立体运维解决方案

已有 72 次阅读  2018-09-10 16:35


  “全方位掌控系统的运行状态,快速响应各类问题”一直以来作为应用运维的目标。

 

  资源运行状态上:资源是否充足?机器、网络等是否有问题?

 

  应用运行状态上:出问题了是容器、中间件还是OS的问题?应用有bug,具体是哪段代码引起的?

 

  用户体验保障上:业务运行是否正常?如何能清楚的了解各地域用户体验情况?

 

  上面这些问题,作为运维统统都要hold住。而随着免费云服务器时代到来,企业应用上云之后,挑战也越来越大:

 

  1、传统运维工具那么多,云上怎么办呢,使用和维护成本太高了。

 

  image.png

 

  2、云化常见下分布式应用问题分析更加困难

 

  image.png

 

  3、如何掌握应用用户体验情况,找到体验差的地方并改进?

 

  image.png

 

  针对这些挑战,华为云推出云应用立体运维解决方案,融合了华为云的应用运维管理服务(AOM)、应用性能管理服务(APM),对基础设施层、应用层、业务层实时多维度监控,并通过应用与资源告警关联、日志分析、智能阈值、分布式调用追踪、手机APP异常分析等技术,实现分钟级问题快速诊断和修复,保障应用长稳运行。

 

  图1_03.png

 

  立体运维解决方案具有一下特点:

 

  01  统一运维监控管理:资源、应用、业务一站式监控与分析

 

  支持集群、虚机、网络、磁盘、数据库、应用、容器及业务等上百种监控指标与秒级监控,通过集群与虚机、虚机与应用、应用与资源统一建模,对各种指标智能关联分析,用户通过统一的告警入口和下钻找到问题根因。

 

  640.jpg

 

  02  日志分析:分布式日志集中搜索与实时查看

 

  将虚机上的应用、开源组件、系统等日志集中采集到ElasticSearch集群中,用户通过日志管理快速找到应用实例日志,提供实时刷新、日志上下文查看、秒级搜索、日志下载等常用功能。

 

  640 (1).jpg

 

  03  应用拓扑分析:应用关系与异常一目了然、故障下钻

 

  对应用健康状态可视化管理,包括应用运行状态、时延、错误、负载、依赖关系,包括数据库、缓存、消息中间件、NOSQL等各类开源组件。

 

  04  分布式调用追踪:大海捞针技术,实时监控所有进程每一次调用

 

  直接帮助用户找到异常的代码函数,同时可还原每个函数调用堆栈、出入参、返回值及详细的堆栈信息,性能瓶颈及代码异常无处躲藏。

 

  05  在线调试:对指定的类及方法设置断点和跟踪

 

  用户配置完类名、方法名和参数名后,当该方法被调用时,可自动捕获该方法的调用者、详细的堆栈以及各类参数,帮助开发快速锁定问题现场。

 

  06  业务会话监控:监控每笔交易的KPI数据,提升用户体验

 

运营视角,了解每个业务的运行状况,包括交易次数、时延、错误率,并通过调用链找到异常代码,同时可以帮助运营人员了解活动期间的交易体验。

 

文章来源:https://www.huaweicloud.com/

 

 

 

分享 举报