在上一篇文章中,我们通过总结这两年在AIOps的落地过程中积累的经验,简述了在构建与实践AIOps的时候可能掉入的陷阱,尤其是对现阶段AIOps发展水平的认知不足以及在技术的选择两方面产生的陷阱,同时结尾处提出了联动北方未来AIOps的发展方向——即通过建立运维基础知识字典库从而实现基于理解的智能运维。
本篇文章将承接上文,进一步阐明为什么说AIOps的必要基础是知识字典库。
基础知识字典库的含义及必要性
首先,我们来解释一下基础知识字典库的具体含义。这里所说的知识字典库,指的是运维领域的各个IT产品累加形成的一个庞大的专业领域数据字典库,其主要内容为各个产品的各类官方定义好的错误代码的详细信息解释说明的总和,这些知识也正是我们理解IT产品的错误现象与原因的关键通道。
在本系列第一篇文章里有提到,根据中国科学院张钹院士的看法,AIOps目前所用到的深度学习已触及天花板,但张钹院士在最近的一次采访中,同时也指出了人工智能未来发展的三个方向——第一,建立可解释性与鲁棒的人工智能理论和方法;第二,打造安全、可靠、可信的人工智能技术;第三,开创创新的人工智能应用。
其中第一点,建立可解释性与鲁棒的人工智能理论和方法,在AIOps应用上则可以解释为运维领域的知识字典库是AIOps的必要基础。
目前市面上的各种AIOps产品均是以标准的机器学习为基础,对其系统收集产生的各类基础数据做相关时序,趋势等维度的分析和学习,并没有真正理解各IT系统产生的各类信息的具体含义,所以故障或者状态信息的可解释性与鲁棒则不成立;此外,AIOps的目标根因分析与故障自愈,也不能落地实现。
由以上两点可以推导出,基于解释可理解的运维领域知识字典库,是AIOps的必要基础。
联动北方的运维基础知识字典库
针对AIOps当前智能化不足的现状,联动北方提出并构建了业内第一个运维基础知识字典库。
运维工作中涉及的技术复杂而繁琐,通过建立运维基础知识字典库,可以对官方已有的信息以及在实际运维操作中积累的工作经验进行进一步整理与规范,通过数据共享为后续运维工作提供参考,以达到提高运维服务效率及质量的目的。
根据知识是否与IT运维服务流程相关,运维过程中产生的知识主要包括流程相关知识和非流程相关知识。
流程相关知识主要包括事件处理和问题处理中产生的知识,例如故障的解决方案等,以及在变更管理流程中产生的知识,如IT服务相关的制度和流程、针对不同事件和问题的解决方案(包括官方文档与运维工作中的经验补充)以及IT服务管理过程中产生的变更申请、测试方案、技术方案等。
非流程相关知识主要包括针对运维领域额外补充的学习或参考材料,可以包括技术参考资料、网络拓补图等。
此外,联动北方基础知识字典库并不是封闭的,而是开放的、可编辑的,为便于基础知识库的持续更新与完善,保证知识的时效性,同时为了方便用户使用,联动北方的运维基础知识字典库还提供了以下功能。
(1)支持将运维过程中的事件及问题转化知识,将事件、问题的解决方案、优化建议自动纳入字典库。对于运维工作过程中遇到的问题,用户可直接编辑并提交管理员审核,审核通过后便会加入字典库;同时,系统支持单条知识导入和批量导入的功能,以便用户的使用。
(2)支持知识关联,系统内的知识点中存在相似或者内容关联等性质的内容会自动进行关联,进一步挖掘信息;
(3)支持搜索功能,支持分类搜索、快速搜索、高级搜索等功能,用户可根据需要准确搜索,第一时间查询到需要的信息;
(4)支持知识编辑,对于基础知识字典中已经存在的知识,被授权的人员可采用更高效的方案进行补充与替换,同时存档编辑记录,方便后续核对与查阅。
运维基础知识字典库的优点
通过创建基础知识字典库,能实现对运维基础知识进行有效的管理,实现知识的创建、储存、共享与应用,其作用主要体现在如下几方面:
(1)实现知识共享
运维工程师在工作过程中难免常常重复解决用户的相同问题,通过建立字典库,大多数重复的问题及其解决方案都可以从字典库中简单、直接地获取,从而将相关工作人员从重复性的工作中解放出来,以解决其他新的问题,从而达到提升工作效率,降低IT维护成本的目的。
(2)实现知识转化
在运维过程中,经常会遇到一些新的难题,其解决方案往往只有参与者知道,但通过将错误及处理方案加入知识库,便可以实现知识共享。基础知识字典库的建立极大地促进了知识转化,有利于提高IT服务部门的整体水平。
(3)避免知识流失
运维是一项相对依赖一线运维人员经验的工作,许多知识往往集中在一线岗位工作人员的脑子里,一些IT应用的操作或故障解决方法可能起初只有开发人员知道,一旦相关人员无法缺席或离职,很小的问题都可能引发极大的损失,而通过建立基础知识字典库则可以有效避免由人员流失造成的知识流失和信息孤岛。
(4)挖掘应用信息
基础知识字典库不仅可以作为一种信息收集、整理工具,同时还是一种数据分析、统计工具。从问题查询频次、知识点击率以及解决的用户请求数量等信息,可以挖掘出许多有用的信息。通过对这些信息进行分析,IT服务提供者可以及时发现和避免一些潜在的问题,提高企业运行效率。
(5)提高运维响应速度和质量
当基础知识字典库的质量和数量积累到一定的数据量,便可作为IT运维的强大储备库,加之运维字典库工具应具备方便、高效的搜索功能,无疑是快速响应IT服务需求的捷径。而通过不断地更新与迭代,能够进入字典库的解决方法一般来说是最正确、标准和高效的,快速、高质量的解决故障意味着提升客户满意度,而这无疑是IT运维的最终目的。
通过建立运维基础知识字典库,可以将已有的知识进行串联与共享,为AIOps提供一个可以思考的大脑,为AIOps的落地实践奠定坚实的基础。在下一篇文章,我们将结合应用实例,继续探讨如何避免AIOps滑向务虚与空中楼阁。
该贴被huang.wang编辑于2019-12-23 9:34:56