【AIOps】为什么有人说运维的未来是AIOps_AI.人工智能讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 3361 | 回复: 0

主题： 【AIOps】为什么有人说运维的未来是AIOps

huang.wang

注册用户

等级：中将
经验：17623
发帖：407
精华：1
注册：1970-1-1
状态：离线
发送短消息息给huang.wang

加好友发送短消息息给huang.wang

发消息

发表于：

2019-2-1 15:03:43 | [全部帖] [楼主帖]

楼主

AIOps的概念最早由Gartner在2016年提出，指使用智能算法解决已知的IT问题，并自动化重复的工作。虽然概念提出时间较早，但真正应用于运维领域却主要是近两年，尤其是去年。2018年可以说是AIOps的元年，随着云计算、大数据、人工智能技术的高速发展，各种新文化、新理念不断冲击着传统运维市场，几乎所有企业的信息技术部门都开始谋求变革，一方面是为了跟上技术潮流，另一方面更是为了能适应随着业务而一起发展的IT系统的运维复杂度和体量。

究其原因，主要是因为人工智能技术这几年的不断进步以及在各行业取得的成果的增多，人们对AI的接受程度也逐步提高，大家开始相信通过AI确实可以完成更多的事情，AI被应用在运维领域也是顺理成章的事。根据Gartner的预测，到2020年，AIOps的采用率将会达到50%，研究机构marketsandmarkets的报告也指出全球AIOps市场规模预计将从2018年的25.5亿美元增长到2023年的110.2亿美元，预测2018年到2023年的复合年增长率为34.0％。

从最初的人工运维到自动化运维再到AIOps，这个路线被认为是一个很自然的发展过程，将AIOps作为未来的运维发展方向，也似乎已经被大家接纳与认可。今天，本文想从行业发展与市场需求两方面，简单谈一下为什么AIOps是运维发展的必然方向，以及如何选择一个合格的AIOps平台。

行业发展需要

回顾运维行业的发展历程，运维平台的发展与我们社会生产发展阶段居然有着极其相似的地方，大致分别对应为IT运维的“农耕时代”、“工业时代”以及“智能时代”。

可以说，AIOps几乎是历史发展的必然趋势，是运维技术发展的一个重要节点，不会因人的意志而转移。运维从人工到工具，从自动化到智能化也是互联网发展及企业业务发展共同选择的结果。

农耕时代主要代表手工运维

在一些IT信息化建设程度还不算高的企业，常常以他们的核心业务为中心构建IT信息化的支撑和管理系统。此时系统架构及基础设施架构异常简单，数十台服务器及一些基础软件如中间件、数据库等，就是企业信息化的全部家当。同时，IT运维体系以及业务对IT系统依赖程度等因素，决定了这个时候运维人员对于IT工具和平台的需求暂时相对较低。

在IT系统手工运维阶段，企业IT规模较小和技术栈的单一，使企业的运维水平往往决定于团队中核心运维人员的经验，几个技术大牛往往是运维团队的核心。所以，这种以人为核心运维机制下，使运维人员往往都形成自己的维护脚本库，将一些日常工作中常用到的解决方案和操作方式以脚本的存储下来，成为各自的“运维宝典”。

总体而言，手工阶段体现了人类农耕时代的特点——以人为主劳动，效率相对较低。因此，在这个阶段当企业IT系统发展到一定规模后，就会引发很多问题。

1、运维资源不足

企业IT系统规模、复杂度和运维团队的人力资源之间并不对等的增长，两者之间的差距往往越拉越大。此外，随着企业环境中云、开源软件等新技术的应用，更是加剧了运维资源不足的困境。

2、知识体系无法共享

在手工运维阶段，运维的经验和知识多数掌握在工程师自己的手里，不便于传播与分享。即使增加人力资源，新运维人员加入需要大量的时间熟悉环境，并需要在实际环境和团队成员传、帮、带过程中积累经验，上手过程往往非常长；同时，运维团队中关键人员的离开，也会引起不同程度IT运维质量波动。

3、标准化程度低

不同的人根据其经验做同一个操作可能带来不同的效果，甚至引起大规模的故障。一套标准的操作规则能减少故障的发生，同时也能减小故障定位的难度。

4、企业对IT系统依赖过高

企业对IT系统的依赖与日俱增，IT系统一旦出现故障对企业业务产生巨大影响，单靠人力的运维模式已经远不能满足这种要求。

因此，在手工运维阶段后期，许多运维团队也自发性地编写一些简单的工具以便利于自己的运维工作。同时，更多企业为解决这些迫切的问题，开始着手引入各式的专业运维工具，解决存在的各种各样问题，逐步走向自动化运维。

工业时代则主要对应自动化运维

在手工运维的时代，其实许多有远见的技术大牛深感这种运维方法的不足，开始着手建立各种运维工具去解决运维效率低下、操作不规范等问题。为解决这些问题，针对于不同场景下的各类专门的自动化运维工具和平台应运而生，例如：

自动化监控类：各种提供应用性能监控、基础软件服务监控、主机存储设备、网络设备等自动化监控和告警的软件服务。

管理类：各种提供IT运维支撑服务以及配置管理等方式的软件服务，例如，各种ITSM系统和CMDB软件系统。

自动化运维类：各种提供自动化运维手段的工具和软件。

其他专项工具：如应用性能管理APM、数据库运维管理DPM等工具。

这些自动化的运维工具和平台一扫手工运维产生的弊端，大大提高了当时的运维效率。一些工具对智能运维的发展也产生了深远的影响。其发展带来的意义主要包括以下几点：

1、代表了人类社会工业化的精神

从本质上而言，自动化运维代表了人类社会工业化的精神。以机器代替人类大部分机械而又重复的手工劳动，解决了系统运维工作与人力资源不足之间的矛盾，原来监控、巡检、软件安装部署等耗时且易出事的工作通过工具和平台交由机器来处理。

2、实现企业IT运维的集约化

自动化运维实现了企业IT运维的集约化，通过一个运维UI界面可以监控和管理企业范围内所有的软、硬件设备。集约化使运维人员简化了在一个复杂运维环境中的运维操作及管理，进一步减轻运维人员的工作量。

3、实现运维操作的标准化

实现运维操作的标准化，同时通过专家评审下的完善脚本管理和标准操作，进一步约束运维操作，以工具和平台的方式固化不同场景下的运维操作，避免给数据库增加数据空间这样常规操作导致系统瘫痪的悲剧发生。

4、实现运维操作的专业化

各种专业化工具平台提供不同场景下的专业级运维服务，一定程度上补充许多运维团队专业技能上存在的不足。例如，专业的DPM数据库运维管理平台，可以实现常见关系型数据库的各种数据采集、问题分析和处理等专家级的能力。

5、实现运维知识有效传承

最后，自动化运维还实现运维知识有效传承。各种运维专家的精力得以从繁重的工作中解放出来，他们得到将有效的运维知识以场景化方式沉淀到运维平台中，不断丰富和完善运维平台的能力。

智能时代则主要表示智能化运维

自动化运维工具和平台大幅度提升运维效率，让运维团队从机械、重复的劳动中解放出来。但随着运维工作的深入，自动化运维一些潜在缺点也逐渐暴露出来，例如运维操作和问题分析过程仍然基于运维者的经验做出判断，很大程度上缺少了数据化和量化的支撑，仍然是依靠运维者的经验甚至直觉来分析处理，运维决策靠各种经验判断和拍脑袋决策；例如运维操作与事件间深层次关系不明，导致许多运维操作和事件之间的深层次关联关系未能有效评估和分析出来等。运维工作者也在探索新的运维模式。

最近一两年，AI人工智能成为业界的研究热点。运维人也开始着手研究如何将AI与运维相结合，让机器实现真正自我管理。

智能化运维目前常见的应用场景包括以下几类：

异常告警：根据历史监控指标数据，运用基于时序的相关算法对监控指标异常分析，并对出现异常的监控指标发出精准告警。

告警收敛：根据历史事件和告警数据，发现这些事件和告警之间的关系，整合频繁一起出现的事件和告警，并将其认看作同一类故障的告警，从而把多个告警和指标合并，推送给运维人员，做到精细化告警，避免传统监控工具因一故障而导致的告警风暴，生产告警噪音。

故障分析：通过运维数据及事件、告警，结合以前发现问题的经验知识库和模型，建立故障树分析，结合决策树等相关算法，通过推导路径使运维人员对于问题的定位更加快速、直观，使得问题的解决更加容易。

趋势预测：进行历史数据拟合等算法，进行资源趋势/容量预测。例如，主机CPU，交换页不足、内存不足、存储不足会逐渐导致系统故障或应用故障，该系统建立关联模型，提醒用户可能后继会发生系统故障或应用故障。在故障产生真正业务影响前，告知运维人员事先解决问题。

故障画像：通过采集多维度运维数据，构建多元结构化底层运维数据模型，配合各类运维场景，并在场景里对故障进行画像，通过各种故障画像标准形式来辅助企业进行IT运维决策和处理过程。

总体来说，我认为AIOps是自动化运维及基于数据分析的运维的进一步延伸。利用自动化运维阶段积累的大量运维数据，基于运维数据分析和自动化运维时打下的基础的各种运维场景和应用，结合各种人工智能技术，提供更为便捷运维操作和分析。

市场发展的需要

早期的运维工作大部分是通过人力完成的，随着IT规模的增长及信息化的进展，也尝试通过自动化将一些重复劳动的效率进行提高。但到了现在以及可以预见的未来，IT系统架构的复杂度越来越高，规模越来越大，同时伴随人力成本不断提高，渐渐地对于一些大型企业或重型信息化企业来讲，运维就不一定是简单依靠人力或传统的运维软件能解决问题了。

传统的运维软件已经满足不了日益增长的运维需求，其主要缺点包括以下几点：

1、问题发现不及时。当前市场上传统的运维工具几乎都具有这一弊病，无法在第一时间发现问题并提醒，等到发现问题时损失已经造成。

2、监控覆盖不全面。传统的运维监控软件针对性较强，一种软件监控一类设备，无法提供整体的运维监控解决方案，无法兼顾全局。

3、智能化程度差。传统的运维软件以监控和报表为主，不具备大数据关联分析和深度数据挖掘功能，在大数据大行其道的今天，已经跟不上企业的需求。

4、展示形式单一。传统的运维工具没有针对用户进行具体的细分和优化调整，针对不同的用户提供的是相同的界面和视图，不能满足用户不同岗位和不同业务的运维要求。

5、总体作用不大。传统的运维模式主要还是靠运维工程师执行，运维软件与运维工具只起到一个辅助性的作用，同时由于性能限制，运行时间过长之后性能显著下降，从而慢慢被弃用。

此外，传统运维工作的弊端也比较明显，主要表现在以下几点。

1、数据分散，不利于故障分析和问题追踪。在传统运维中，不同的数据存储存在不同的运维系统当中，无法进行关联；与此同时，不用系统中的数据格式、时间戳也不尽相同，不利于问题的排查与发现。

2、功能单一，获取的数据价值低重复率高。在传统运维工具中，每个运维软件都有特长的部分，但每个软件关注的领域又非唯一，采集的数据重复率较高，有些数据甚至相互影响以致干扰正常业务的运行。

3、资源浪费，增加企业运维压力。产痛运维工具功能单一且价格昂贵，采购多种运维软件在功能上、设备上存在着投资浪费，同时这些软件的维护更是有可能给运维工作带来额外的负担与压力。

在传统运维模式中，很多运维决策都是靠人的经验，也就是所谓的PE角色线上解决运维问题。首先他这样的专家经验不是系统能力，只能是有多少这样的人才能解决多少这样的运维问题，不具备规模化复制的能力。之后大家意识到这样的问题，开始把这样的经验沉淀到系统，变成系统能力，也就是规则系统。

但这样规则系统的能力不具备泛化能力，也就是说系统很难对稍微不一样的输入做出正确性的判断。所以利用大规模数据挖掘、机器学习和人工智能技术对纷繁复杂的运维大数据进行实时分析和分类及预测，为系统维护提供更具泛化能力的有效决策的方案，是解决当下运维困境的唯一选择。

因此引入和发展人工智能技术，从自动化运维逐渐进化到AIOps，对于运维市场发展来讲确实是必然趋势。

如何选择一个合格的AIOps平台

AIOps对运维的优化可以体现在两个大方面，一是成本，二是效率。成本方面，AIOps可以节约成本、提高资源利用率；而效率方面则从提高效率为根本宗旨，做到及时发现问题，快速定位问题，最终解决问题。

目前，国内AIOps才刚刚起步，许多AIOps平台还处于一个初级阶段，因此，选择一个合格的AIOps平台就显得格外重要。合格的AIOps平台不仅能加速让用户了解并接纳AIOps，对未来智能运维概念的传播和推也有着重要的意义。下面，让我们结合实例，来谈一下如何选择一个合格的AIOps平台。

首先，一个合格的AIOps平台应该能清晰且多样化地展示监控的数据，包括配置、作业以及告警等。用户登陆后，能在门户首页直观地看到系统的运行情况，方便工程师进行实时监控和异常发现。此外，不同岗位的用户还可以根据自己的需求选择不同的数据展现形式，满足多样化的需求。

其次，一个合格的AIOps平台应该具备运维常用的功能，包括配置管理、监控管理以及作业管理等。在此基础上，一个优秀的AIOps平台同时应该结合人工智能和大数据等新兴技术，开发智能运维等模块，将智能赋予运维，让AI真正融于运维工作当中。

配置管理

配置管理(CMDB)，也称资源管理模块，默认是预置的资源模型和拓扑关联关系，而智能资源模型可根据业务需求动态调整，如新增模型、新增模型属性、关联关系等。

对比固定的运维模型，智能运维系统的配置管理首要一个特点就是能灵活扩展，可自定义的运维模型。在运维操作中，存在多个运维对象，每一个运维对象之间又存在复杂的关联关系，AIOps配置管理系统能很好地处理这些模块间的关系，据用户需求来灵活拓展、建立与配置运维对象之间的关系的能力，以便更方便地去管理这些运维对象。

监控管理

监控管理模块在整个运维系统当中担任着哨兵的角色，需要针对各个层面的监控覆盖，包括用户体验的监控、应用性能的监控、中间件监控、基础设施的监控，因为只有收集了全面的数据，才有可能从数据中寻找关联，从关联中发现规律，丰富运维知识库。此外，还应能根据异常规则判断异常情况并作出警报，一边及时处理故障。同时，除了一些常用的告警规则以外，一个合格的AIOps平台还应能够自行添加所需的告警规则并通过大数据共享，全方位提升运维的价值。

作业平台

作业是一系列运维操作的抽象定义，任何一个运维操作都可以分解成一步一步的操作步骤和操作对象，不论是发布变更还是告警处理，都是可以分步骤的。作业平台能够清晰地看到每个作业的执行请款，解放大量劳动力。此外，在作业执行异常的情况下，还可以为异常的原因打上标签，打标签可以根据错误输出关键字匹配自动分类或者人工归类，然后统计各种异常情况的比例，再重点分析并处理异常比例高的情况。从而进一步提高作业的正确率。

系统管理

一个好的运维工具除了功能完备，还因该具有良好的操作性和可拓展性，可以多人协同操作。但是人多力量大的同时也可能出现权限混乱的请款，为防止此情况的发生，一款合格的AIOps产品需要能够控监控用户的操作，适当开放用户的权限，以确保运维工作有序、正常地进行。

智能运维

具备上文所述的功能，基本可以称为一款合格的AIOps平台，但是想要做到优秀，智能部分自然必不可少，尤其是智能自愈与智能诊断。某种意义上来说，这也是智能运维的精髓与灵魂所在。

智能自愈功能，其原理主要是通过主动预防故障产生从根本上减少故障、提高运维的效率。

只能至于的主要流程为：对日志和数据中的关键字实时生成告警，反馈业务状态，实现应用层面的智能预警——根据预设阀值和历史数据，进行数据分析，发现异常情况，自动触发自愈动作——发起运维操作，进行任务编排，以消除告警，降低系统故障风险。

智能诊断则功能的主要作用则是为运维工作提供一个关联性强、灵活度高以及功能全面的系统诊断，从应用的整体、运维对象出发，分析其内在的关联，找到问题的源头并针对性解决，避免南辕北辙的请款发生。同时，通过多方面的数据采集与分析，在分析过程中也不断自身调整，让结果更加准确全面。

总结

每项新技术的推广和应用，总是伴随着质疑和不解，但技术发展的脚步却从未因这些质疑而停滞，历史也一样。随着技术的不断革新，曾经历了三起三落，不被多数人看好的人工智能技术已经在多方面得到良好的应用，成为当前最被追捧的技术之一，而AIOps虽然还处于初级阶段，相信随着应用的不断加深以及成果的逐渐增多，运维领域终会迎来全面的AIOps时代。

该贴被huang.wang编辑于2019-10-9 10:00:18