【AIOps】智能运维对传统运维工作带来的影响_AI.人工智能讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  AI.人工智能讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 2975 | 回复: 0   主题: 【AIOps】智能运维对传统运维工作带来的影响        上一篇   下一篇 
huang.wang
注册用户
等级:中将
经验:17623
发帖:407
精华:1
注册:1970-1-1
状态:离线
发送短消息息给huang.wang 加好友    发送短消息息给huang.wang 发消息
发表于: IP:您无权察看 2018-12-10 12:04:47 | [全部帖] [楼主帖] 楼主


每当人工智能在一个领域有所突破时,有关人工智能即将取代人类某项工作的说法就会卷土重来一次,而对于人工智能会取代人类工作的担忧和恐慌更是从未停止过。

无疑,技术的进步将给我们的生活和工作带来极大的变化,可以预见,随着技术的进一步成熟,人工智能在接下来的十年内将极大的改变人类的生活和生产方式,越来越多的复杂场景中利用机器工作的效率将远超人类,一些常规化的脑力工作者将也将逐渐被人工智能取代——比如自动驾驶取代司机,医疗AI取代一些初级医疗工作者,比如电话客服、商场收银员、投资行业的调查类工作都会逐步被取代,这个过程就像流水线取代手工作坊一样自然。而全球最著名的老牌管理咨询公司麦肯锡则直接给出了一份爆炸性的分析报告——在十年内,人工智能的发展最少将造成全球多达8亿人失业,这些人的工作将被机器人和人工智能彻底取代。

运维领域作为人工智能最先涉足也是最被好看落地的领域之一,人工智能技术的使用也必将对现有的工作结构和工作岗位带来一定的冲击。下面,让我们从传统运维的具体工作出发,看看哪些岗位将要或者有可能被取代,又有哪些运维岗位能够逆流而上,借着人工智能的东风更上一层楼。


运维简述

在讨论智能运维对传统运维的影响之前,我们还是先了解一下运维的定义及工作范畴。

运维(Operation and maintenance),一般是指对大型组织已经建立好的网络软硬件的维护,其中传统的运维是指信息技术运维(IT运维)。

所谓IT运维管理,是指单位 IT 部门采用相关的方法、手段、技术、制度、流程和文档 等,对IT 运行环境(如软硬件环境、网络环境等)、IT 业务系统和 IT 运维人员进行的综合管理。

随着信息化进程的推进,运维管理将覆盖对整个组织运行,进行支持的管理信息系统涵盖的所有内容,除了传统的IT运维,还拓展了业务运维和日常管理运维。其参与的对象也从IT部门和人员,拓展到组织的管理层和各部门,及其相关的业务骨干。

运维的最终结果是对软件运行中各种性能的维护。

传统运维的工作主要分为三类,分别为IT运维、业务运维与日常管理运维。

IT运维是IT管理的核心和重点部分,也是内容最多、最繁杂的部分,该过程主要用于IT部门内部日常运营管理,其涉及的对象分成两大部分,即IT业务系统和运维人员。

业务运维是业务需求和用户体验的核心和重点部分,更是需要对内容繁杂、持续变化、支持不同的业务需求,加以描述、加载和维护的过程,其涉及的对象包括2类人员,一类是提供业务支持的技术人员,另一类是整个组织的管理层和业务骨干,随着业务运维环境和工具的能力提升,功能完善、体验优化,技术人员将逐步退出这个领域。

日常管理运维则是对IT运维和业务运维需求、过程、结果的管控,以及对整个管理信息系统运行状态的管控,从而实现针对应用变化的记录和跟踪、针对地域不同的变更和跟踪、预测环境和应用的风险和防范管理等等,其涉及的对象主要是运维管理部门的管理人员和参与人员。


智能运维与传统运维对比

智能运维的出现,将部分运维人员从繁琐的工作中解放出来,在提高整体运维效率的同时也极大降低运维成本,实现了业务系统的高可用性。下面,我们就结合具体智能运维平台,将传统运维的工作与智能运维平台进行对比,看看智能运维平台能够替代哪些传统运维的工作内容。

IT运维VS配置管理

IT运维作为IT管理的核心和重点部分,其内容也是最多、最繁杂的。该阶段主要用于IT部门内部日常运营管理,涉及的对象分成两大部分,即IT业务系统和运维人员。该阶段的管理内容又可细分为以下六个子系统:

1、设备管理:对网络设备、服务器设备、操作系统运行状况进行监控。

2、应用/服务管理:对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理。

3、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复。

4、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理。

5、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互。

6、信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127种控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等。

为了满足IT运维的工作需要,智能运维平台配备了配置管理(CMDB)模块。通过配置管理(CMDB)模块,可以对运维对象(资源、连结、指标)进行管理。配置管理的功能包括模型管理、资源管理、连接管理和指标管理四个主要功能。

 image.png

平台采用了一个两层的模型结构。第一层是大类,按照传统分成了业务应用、中间件、数据库、操作系统、主机硬件、网络设备、SAN交换机、磁盘阵列八类;第二层是大类下的产品细分,比如数据库可分为Oracle、MySQL、SQLServer等,我们所谓的模型管理,主要针对第二层进行自定义和维护,其主要内容要维护资源模型的属性和关系。平台预置了常用的资源模型,同时支持自定义,以满足用户的不同需求。

 image.png

资源管理主要是对资源实例进行的各种管理操作,包括创建资源、编辑资源、删除资源、维护资源实例关系等。


业务运维VS监控管理

业务管理主要包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的关键成功因素(CSF: Critical Success Factors)和关键绩效指标 (KPI: Key Performance Indicators)。具体包括以下几点:

1、面向整个组织针对各业务系统,提供业务需求整理、需求变更和用户体验优化的加载、维护、配置、升级、补丁等方面的实现服务;

2、面向整个组织提供各业务系统的问题受理、响应、处理和转交等方面的服务;

3、面向整个组织的各级机构和各业务部门提供各类业务系统的操作指导、数据应用、模块分配、参数设置等;

4、面向整个组织提供客户端安装、配置、升级等技术支持;

5、面向组织以外的部门提供相关信息(按机关相关部门要求)、回答网站税务咨询、局长信箱和纳税人电话提出的各类业务问题。

与传统运维模式中业务运维相对应的则是智能运维平台的监控管理模块。

 image.png

监控告警模块通过监控采集工具,以无创(API、SSH、WMI、SNMP、IPMI等)手段对各类IT资源(业务应用、数据库、中间件、存储、主机、网络安全设备)的性能和健康指标进行定时采集、存储和数据处理,根据告警规则生成告警事件,触发告警,以短信、邮件方式通知相关人员,对企业自身核心业务系统运行情况的进行实时的监控管理。


日常管理运维VS作业平台

日常工作管理部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。

IT运行维护管理的每一个子系统中都包含着十分丰富的内容,实现完善的IT运维管理是企业提高经营水平和服务水平的关键。运行/维护阶段与服务/支持阶段的分界线为前者是面向 IT部门内部的管理,而后者是面向业务部门、企业中的其它人员或直接面向客户。

在智能运维平台中与日常管理运维相对应的则是作业平台模块。作业平台由作业总览、作业管理、任务管理、工具管理、文件管理五个主要功能组成。

 image.png

从作业总览页面,可查看平台上配置的作业流程的总数以及分类汇总数;也可以查看作业执行的情况,即作业实例的数量以及分状态(正在执行、成功完成、部分完成、失败和中止)的汇总情况及变化趋势。同样,也可以设置作业任务,查看作业历史,以及使用工具箱来增加个性化的作业。

作业平台支持可视化作业编排,将传统的操作步骤简化成几步简单的操作,以便能完成作业任务的设计,同时支持串行/并行的作业任务、手动/定时的作业任务(支持简易和复杂的定时设置),以及多种作业状态的消息通知,让作业任务尽在掌握。

此外,智能作业平台还要支持基于消息与多线程的异步作业引擎,其数据传输基于通用SSH协议,安全稳定,个性化编排,提供可视化任务执行跟踪界面,可人工干预执行;对接客户流程管理,发布变更流程固化,系统内置常用作业模版(例如系统健康检查);依靠批量并发执行、高效的作业调度引擎,以达到轻松运维海量主机的效果。


未被智能运维取代的角色

除了上述能够部分甚至全部被可以被智能运维取代的工作,还有一些运维岗位不仅没被取代,而是随着运维的发展,被赋予了新的意义与职责。

根据近几年来整个业界对智能运维的理解和实践,从业人员总结得出了四种不可或缺的角色——分别是运维工程师、运维研发工程师、平台研发工程师和运维AI工程师。其中,除了传统的运维角色,运维AI工程师则是由智能运维的发展而衍生出的新岗位,可见智能运维在“取代”人类工作的同时,也创造着新的工作机会。

下面我们一起来看一下这些工作角色在智能运维时代被赋予的新的意义与职责。

运维工程师

运维工程师在传统运维中的主要职责围绕质量、成本、效率三方面。

image.png

主要包含如下工作内容:

image.png

而在智能运维落地实施中,运维工程师是处于中心的角色,也赋予了新的职责,他们是智能运维具体实施的需求提出者和成果验收者。具体职责包括:

1、根据对运维领域的深入理解,明确AI所需要解决的问题域;

2、提供运维领域的知识和经验,对数据进行标注分类,作为机器学习必备的训练数据;

3、验收AI输出结果,将成果应用于实际生产。

在智能运维时代,运维工程师一方面需要熟悉运维领域的知识,了解运维的难题和解决思路;另一方面需要了解人工智能和机器学习的思路,能够理解哪些场景问题适合用机器学习方法解决,需要提供怎样的样本和数据,即成为AI在运维领域落地实施的解决方案专家。


维研发工程师

运维研发工程师负责基于业务线特征的运维研发工作,在传统运维中,是运维自动化的实施者,实现了针对业务场景的自动化运维实施落地。其职责如下:

1、研发自动化运维工具和平台,负责部署、监控、保障预案制定,提升运维效率;

2、深度参与业务系统的设计与实施,参与主导系统架构的可用性设计;

3、参与产品系统架构优化,持续改进产品性能和系统健壮性,提升用户体验。

在智能运维时代,运维研发工程师承担了智能运维智能化运维解决方案在业务线实施落地的职责。他们是智能运维场景的实践者,将智能运维解决方案与业务架构特征相结合,实现智能运维在业务线的落地。

image.png

一方面,运维研发工程师会与运维工程师紧密配合,对业务问题进行深度分析,理解业务的特点。另一方面,他们与平台研发工程师、AI工程师相配合,基于AIOps解决方案的策略和框架,进行定制化开发,使其适合自身业务线的特征。


平台研发工程师

平台研发工程师在传统运维场景中主要负责平台、基础组件、类库和工具的研发工作,在针对运维的场景中,会覆盖运维相关的服务管理、监控、变更、流量调度等相关平台。

image.png

这部分平台是运维的基础,在智能运维时代仍然需要依赖于这些平台的建设。

同时在智能运维场景中,数据成为了中心,运维各种状态信息转换为大数据,机器学习则作用在大数据上进行分析。在百度智能运维的实践中,运维开发框架、运维知识库、运维策略框架共同组成了完整的智能运维平台,三大平台的建设和实施离不开大数据、机器学习架构的引入。这就要求平台研发工程师具备大数据、机器学习平台架构师的多重身份,具备流式计算、分布式存储、机器学习平台、算法策略平台等一系列大数据和机器学习平台架构能力。

image.png


运维AI工程师

运维AI工程师是将AI引入运维的核心角色。他们针对运维数据、运维经验进行理解和梳理,使用机器学习的方法将海量运维数据进行汇总、归纳,使得数据中的价值显现出来。


总结

智能运维作为未来运维的发展趋势,一方面提升了工作效率,让运维人员有更多时间去进行平台的研发和优化,而不是将时间浪费在一些重复性高的琐事上,另一方面也大大降低了企业的运维成本,提高企业处理信息的能力,为企业的发展壮大打下基础。

诚然,智能运维的出现和使用会导致一部分运维人员的失业,但是智能运维在发展的同时,也创造了新的工作机会。未来已来,与其担忧抱怨,不如抓住机遇逆流而上,与人工智能一起为运维领域创造更多的价值。


该贴被huang.wang编辑于2019-10-9 10:00:34


我超级酷,但是如果你回复我的话我可以不酷那么一小会儿。


——来自logo.png


赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论