【AIOps】物换星移几度秋『第二章』——小心AIOps可能掉入的陷阱_AI.人工智能讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 3040 | 回复: 1

主题： 【AIOps】物换星移几度秋『第二章』——小心AIOps可能掉入的陷阱

huang.wang

注册用户

等级：中将
经验：17623
发帖：407
精华：1
注册：1970-1-1
状态：离线
发送短消息息给huang.wang

加好友发送短消息息给huang.wang

发消息

发表于：

2019-12-14 13:58:36 | [全部帖] [楼主帖]

楼主

在上篇文章中，我们对AIOps的定义及现状做了简单的回顾，并对AIOps的具体概念进行了进一步的探讨，在我们看来，AIOps绝不是AI与Ops两个概念的简单叠加，当前运维所面临的挑战也并不能依靠传统AI基于机器学习或深度学习的方式来解决。在深度学习已经触及天花板的今天，针对当前运维市场的现状，我们更需要的是一个基于理解的智能运维平台。

今天的文章，将承接上文，主要讲一下AIOps在实践和具体落地过程中可能掉入的陷阱。

通过这几年AIOps的落地过程来看，我们在构建与实践AIOps的时候，往往可能掉入多个陷阱，尤其是对现阶段AIOps发展水平的认知不足以及在技术的选择两方面产生的陷阱，我们需要加以防范。

陷阱一：对现阶段AIOps发展水平的认知不足

在应用新技术前，我们往往要对技术现阶段的发展状况进行一个了解与评估，以找到最合适的落地方式。但是由于人工智能技术本身的特殊性，常常会让人产生一些过高的预期，从而影响评估结果。对现阶段AIOps发展水平的认知不足，会导致在构建智能运维平台时，产生一些超越当前技术水平的期望，提出一些不符合实际的要求，从而影响最终的结果。

AI是一个科技感十足的词汇，大多数人看到 AI 可能会联想到不需要人为干预就能自动、主动地完成工作的机器人。对于运维领域来说，理想状态AIOps应该像一剂万能药水，能解决运维工作中各种大小难题，有了AIOps，运维工程师以前只能向往的“诗和远方”也似乎马上就可以实现。

但事实上，根据Gartner发布的技术成熟度曲线显示，AIOps目前正处于科技诞生的促动期 (Technology Trigger)进入过高期望的峰值（Peak of Inflated Expectations）的发展时期，而对其抱有超越现阶段的期望，也是 AIOps 面临的主要陷阱之一。

对于智能运维未来的愿景，清华大学知名教授在两年前一次演讲上曾经提到过——将来的愿景是什么样子呢？现有监控提供数据采集，AIOps 的引擎做出决策建议，少数运维专家最终决策，执行自动化脚本进行故障止损、修复、规避等操作。但往往理想丰满，现实骨感，两年前的愿景就今天来看依旧还有很长一段路要走，当前绝大多数智能运维平台只能实现比较基础的功能，主要包括以下几类：

1）异常检测：主要是检测交易量是否异常、某台机器或者是集群是否有故障、日志记录是否异常、是否有受到攻击和数据库是否有异常等等。

2）异常定位：根据交易指标辅助异常发生时候的问题定位。这些指标包括：软件系统交易类型、软件系统的交易时间、硬件系统的内存使用率和内存硬件系统的CPU使用率等等。

3）异常预警：通过对系统软硬件的指标体系、日志、事件进行监测，并根据当前的运行信息预测未来一段时间内系统失效的概率，以达到提前预警的目的。

因此，我们在商讨建设方案时，应该从企业的实际情况出发，制定节奏合适的规划，避免因为认知不足而导致的落差。

其次，当AIOps落地后，对其过高的期望值也很容易掉入陷阱，误认为AIOps是万能的，可以用来解决运维中遇到的所有问题，但在实际使用过程中却发现功能与预期相去甚远。

AIOps平台本质上仍是一个工具，在构建后，依旧需要人的参与；需要在专家或者数据科学家的帮助下，不断完善来提升系统的AI能力；还需要我们树立科学的系统建设理念，逐步按梯次建设实施好AIOps系统。

只有对AIOps的现状有一个清晰的认识，才能保证在构建和落地过程中脚踏实地，也让技术能发挥出最大的价值。

陷阱二：技术选择上的陷阱

另一类陷阱，则是技术选择上的。目前市场主流运维平台所采用的多是通过深度学习或机器学习分析运维大数据从而做出决策的方案，但在实际应用过程中，直接应用标准的机器学习算法，通过"黑盒"的方法直接解决我们的运维问题的做法，通常是行不通的。

最典型的比如异常检测，由于运维过程涉及到的IT产品繁多复杂，每一类系统也有关于自身异常的监控指标，机器学习在没有理解异常错误的具体含义时，仅仅通过机器学习得出的经验无法在各类繁多复杂的指标阈值前适用最优的算法进行匹配分析；此外，传统的时序分析，频度分析针对异常检测根因分析等也存在诸多不完善，导致目前的异常检测存在许多漏报误报、故障发现不及时等。

所以目前基于深度学习或机器学习对大数据进行分析的做法并不适用于运维行业，要做到真正的智能运维，还需要让AI理解各类指标、错误代码的具体含义，即需要各IT产品详细的基础知识字典库（各类产品官方提供的错误代码详细信息解释）来信息辅助，只有在理解了错误代码的基础上，才能做好异常检测分析，做好异常检测分析之后，才能一步一步做好后续的根因分析等目标。

当然，AIOps的建设过程中，除了以上提到了两类陷阱，我们还会碰到其它这样那样的困难和问题，也都需要我们努力一一去克服。

未来的AIOps发展方向

立足于未来，人工智能应用的目的之一，就是代替人工完成部分或全部的工作，而目前的智能运维平台所做的只能辅助人类，从功能上来看只是一个比较精确、快速的异常监控工具，距离智能还有很长的一段距离。那么，为了能够做到智能运维，需要在哪些地方予以补充呢？我们或许可以从运维工程师身上来寻找答案。

工程师的价值在于，能够通过自身积累的知识与过往的运维经验对具体环境下具体的错误进行理解分析，在基于理解的基础上对系统出现的问题给出适当的解决方案，因此，类比于运维平台，想要能真正意义上实现智能运维，也需要完成知识的积累和储备，即建立基础知识字典库。

千里之行始于足下，缺乏了基础知识字典的AIOps充其量不过是一个更为高效的监控工具，很容易沦为空中楼阁，无法具体实现。而AIOps未来的发展方向，也应该是基于理解的智能运维。

在下一篇文章，我们将具体分析为什么说AIOps的必要基础是知识字典库。

该贴被huang.wang编辑于2019-12-16 10:42:48

本版精华
热门帖子

【有奖活动】最迫切的与最可能的，人工智能讨论火热进行中～

我超级酷，但是如果你回复我的话我可以不酷那么一小会儿。

——来自

操作引用/回复

Bobo226

注册用户

等级：上尉
经验：548
发帖：0
精华：0
注册：2020-1-7
状态：离线
发送短消息息给Bobo226

加好友发送短消息息给Bobo226

发消息

发表于：

2021-12-3 12:24:54 | [全部帖] [楼主帖]

2 楼

英国乐透8 据中国载人航天工程办公室消息，神舟十三号航天员乘组于晚进行首次出舱活动，航天员翟志刚、王亚平着“飞天”舱外服将进行舱外作业，航天员叶光富在舱内配合支持。目前，出舱活动正在进行中澳洲幸运5 先后从天和核心舱节点舱成功出舱，中国首位出舱航天员翟志刚时隔后再次执行出舱活动任务；王亚平成为中国首位执行出舱任务的女航天员，迈出了中国女性舱外太空行走第一步。两名出舱航天员

操作引用/回复

总帖数

每页帖数

1/1页

返回列表

用户登录

Weblogic中间件技术论坛

Tuxedo中间件技术论坛

数据库论坛

Java论坛

Linux/unix论坛

网站地图