在前三篇文章中,我们分别探讨了AIOps的定义、建设AIOps过程中可能遇到的陷阱,进一步,针对AIOps当前智能化不足的现状阐述了为什么AIOps的必要基础是知识字典库,今天的文章为本系列最后一篇,将结合联动北方智能运维平台的具体功能,来谈一下基础知识字典库在运维工作中起到的作用,以及在未来AIOps的建设与落地过程中,如何避免AIOps滑向务虚与空中阁楼。
基础知识字典库的作用
故障速查
故障速查是联动北方智能运维平台提供的基础功能之一,主要针对运维过程中常见的错误号及典型故障的查询。经过在运维领域多年深耕,联动北方智能运维平台已建设拥有了完整的运维领域基础知识字典库,系统涉及到非常多的产品与产品代码信息,如下图所示:
为方便用户使用,系统还为故障速查功能设置了多个入口,用户可以根据需要通过网页端、手机端或运维平台客户端进行故障查询。
故障查询功能主要由基础知识字典库提供数据支持,当用户在操作过程中遇到故障或警告信息时,可通过输入相关错误号进行查询,系统会自动从字典库中匹配并输出错误号的具体产生原因及解决方式,除了官方的解决方案,字典库还会匹配论坛里同类错误的发帖信息,以帮助用户进一步学习与解决问题。
对于字典库暂未收录的错误信息,系统会自动进行记录,此外用户也可以主动提交需求,后台会有工程师对相关问题进行跟踪与反馈,直到问题得到圆满的解决。
通过故障速查功能,用户能够自主解决大部分重复问题,给运维人员节省了大量时间和成本;基础知识字典库在为用户提供数据支撑的同时,也完成了知识库自身的扩充与知识更新。
监控管理
监控管理功能是目前主流运维软件的主要功能之一,通过将各种操作系统、服务器硬件、网络设备、各种业务应用、数据库、中间件、存储、虚拟化等IT资源进行可视化集中展示,方便用户随时随地查看系统运行情况。当出现故障时后,平台会通过预置的报警方式,以邮件、短信、电话自动拨打等方式及时通知指定工程师进行处理。从本质上看,目前的智能监控模式只是传统监控功能的升级,智能化程度明显不足。
而基础知识字典库的应用对于监控功能的意义在于,为监控平台进一步智能化提供了可能。基础知识字典库包括了系统运行过程中可能产生的错误信息以及故障的解决方案等信息,通过将监控管理与基础知识字典库相结合,运维平台可以在理解运维流程与错误信息的基础上预置一系列自愈策略,以应对一般运维问题。
例如当磁盘空间占满时,会自动启动文件清理功能,清除冗余和过期数据,以消除警告;当有应用进程异常关闭时,会自行执行健康检查功能,找出异常关闭的原因并进行重启;当服务器异常重启时,运维系统则会进行初始化配置检查操作;当系统监控到业务量下滑时,则会进行关联节点的异常分析,根据分析结果选择接入网切换作业或发布业务公告。
根因分析
根因分析广泛应用于IT与医学等领域,根据Gartner给出的定义——根因分析是一种旨在将当前条件与过去采集到的结构化/非结构化数据模式进行匹配的复杂分析方法,根因分析的目标是尝试定位一个系统错误的问题根源。
运维是一项复杂的工作,由于企业IT结构复杂,一个基础组件的异常都可能引发蝴蝶效应,并最终导致多个核心系统的告警风暴。在传统的监控方式下,一旦产生业务告警,管理人员需要全力分析业务告警,大量的时间被浪费在针对业务系统的分析,而无法及时、准确地找到告警根因。
多数情况下,监控指标之间存在相互关联性,如果某个指标发生异常,很多相关指标也会跟着产生异常,如果同时对所有的告警指标进行分析和处理,势必浪费许多的时间与资源。通过结合运维基础知识字典库,系统可以对告警信息进行过滤、筛选、匹配、分类等预处理,发现告警之间的联系,并通过算法进行告警溯源,建立根源告警和衍生告警之间的关系,从而过滤掉冗余告警,进一步实现故障的精准定位和溯源。
工单管理
在实际运维过程中,因为现场情况的不确定性,工程师还可能会遇上一些官方未定义的错误信息,对于此类问题可通过工单管理功能进行提交与整理。工程师可以主动提交运维过程遇到的问题及其解决方案,工单里的内容经由系统整理分类后会自动添加到基础知识字典库,字典库会通过大数据分析找到与之关联的数据与可能的解决方案,方便工程师进行进一步的复盘。同时,此功能也可为同类问题的解决与进一步分析提供了数据支持。
如何避免AIOps滑向务虚与空中楼阁
从2016年Gartner 提出AIOps概念以来,AIOps诞生已有三年多时间。从已上线的AIOps项目来看,为避免AIOps滑向务虚与空中楼阁,有如下几点思考:
首先,需要做好基础数据的积累与建设。各类基础数据的收集整理分析是实现AIOps的先决条件,没有多种数据源,数据的采集,数据存储,数据统计,数据可视化,AIOps的一切都只是空中楼阁。所以在建设AIOps项目时,必须要先有基础数据的积累建设,才能避免AIOps滑向务虚,从而延伸到AIOps的下一阶段建设。
其次,需要建立IT运维领域的基础知识字典库。当前AIOps智能化不足的现状从侧面印证了通用的基础数据加上机器学习分析这类做法并不是未来AIOps的发展方向,当前流行的算法并没有很好的实现AIOps异常检测,根因分析等目标。我们知道,IT系统的各类系统复杂多样,每个IT产品的自身特性与运行机制都存在差异。在没有理解各类报错信息的前提下,机器学习的相关算法很难准确及时的实现异常检测与根因分析,因此AIOps的应用还需要继续完善AI相关的基础理论,AIOps还需要建立IT领域的基础知识字典库,在理解了异常信息的基础上,AIOps才能做到准确及时的异常检测,根因分析等目标。
基础知识字典库之于AIOps的意义,就像运维知识和运维经验之于工程师的意义,是保证运维系统稳定不可或缺的基础,正因为有了这些基础知识作为支撑,才能保证在与新技术的碰撞中稳步前行;同时AIOps的建设不是一蹴而就的,仍需我们在现有基础之上,继续完善IT产品的基础知识库,才能走向光明的前途,离理想状态的智能运维更近一步。
该贴被huang.wang编辑于2019-12-30 17:23:02