重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

原标题:重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

话不多说,有图有真相,请看~

是的,文末有福利~

作者简介

萧田国

高效运维社区 发起人

AIOps 白皮书及标准 联合发起人

DevOps 标准体系 联合发起人

开放运维联盟主席

复旦大学特聘讲师

前言

在OSCAR联盟(云计算开源产业联盟)指导下,高效运维社区汇聚国内 3BATJ 及电信、金融顶级 AIOps 专家及所在公司智慧结晶的《 企业级 AIOps 实施建议 》白皮书的第一版已经正式发布( V0.6,下载链接详见后文)。

本次分享内容源自 413 GOPS全球运维大会2018·深圳站,主要内容包括如下7点:

1、整体介绍

2、AIOps 的目标、指导原则

3、AIOps 的能力分级和能力框架

4、AIOps 的平台能力体系

5、AIOps 的团队角色

6、AIOps 的常见应用场景

7、AIOps 实施及关键技术

运维的工作重点向来以三大类为主:质量、成本和效率。 AIOps 也不例外,无不在强化或进一步优化相关内容。

一、AIOps 白皮书整体介绍

上图中划叉的内容在本版本中没有,即不包含: AIOps 指导原则、 AIOps 实践路径建议、AIOps 的效果度量。为啥?主要是因为还没写完 :)

本版未包含内容预计将在 914 GOPS全球运维大会2018·上海站隆重发布。

正如下图所示,传统的运维,用我们的血肉筑起一座桥,这是很辛苦的,同样也很容易崩塌。这个阶段俗称人肉运维。

后来有了自动化运维、 DevOps 和 AIOps 。

DevOps 的处境有些尴尬。有些传统行业是抗拒 DevOps 的,认为这可能会导致运维下岗,或者被“吃掉”。

而且,有开发人员开玩笑的说,DevOps,居然让神圣的 开发 和 运维 这样的词汇混在了一起。(可见 IT 内部鄙视链之深重)

更严重的是,DevOps 难以唤起公司业务及决策层的关注,很容易被顾名思义的认为无关业务(只是开发和运维之间的暧昧),只是又一个单纯的技术概念(那就技术人员来做就好嘛)。因此需要做大量“教育”工作,但如您所知,改变一个人的认知,相对不易。

2016年开始出现的 AIOps ,相比而言更适合运维,而且更有格局。

Ops 终于和高大上的 AI 合理融合在一起,故障自愈、智能变更、容量预测等令人无比向往,其想象空间足以引起公司业务及决策层的充分重视。

我甚至可以据此说:运维,野百合也会有春天。

清华大学裴丹教授把 AIOps 和自动化运维的关系做了界定,自动化运维需要具有行业领域知识和运维场景的知识,具有实际处理能力。自动化运维基于规则,适用于中小环境。

AIOps 是去规则化的,尝试通过大量的数据训练,自动琢磨出来规则,因此适用于大型或更复杂的环境。

AIOps 是运维的归宿,是 DevOps 在 Ops 侧的高阶实现, DevOps 要做得如丝般顺滑的好,必须借助于 AI。

二、AIOps 的目标

AIOps 就是对规则的AI化,不再人为指定规则,而是通过机器学习把规则琢磨出来。

三、 AIOps 能力分级

我们把 AIOps 能力分为五级:

  • 尝试应用,开始尝试应用AI能力;
  • 单点应用,能形成内部使用的“学件”;
  • 串联应用,能根据多个运维场景串起来,可以把复杂的问题解决;
  • 能力完备,主要运维场景均已实现流程化免干预AI运算能力;
  • 终极AIOps,可以在成本、质量、效率间从容调整。

AIOps 白皮书只关心 AIOps ,虽然自动化运维是基石,非常的重要。这么编写的一个原因在于,如果还把自动化运维的内容加进来,那可能过于臃肿。

AIOps 的能力框架如上图右侧,从底下往上数,是数据的上报标准、命名规范、采集数据通道、数据清洗ETL、数据仓库、离线计算和实时计算。我们按照效益、质量、成本三个方向对于 AIOps 实现的场景进行定义。

学件是南京大学周志华教授率先提出来的。可以理解为升级版的API。传统 API 基于规则,输入参数是什么,输出就是什么,中间是固定的逻辑(规则)。

学件类 API 不是基于规则的,学件会有记忆功能,它能帮你把模型训练出来,比如说调参。这样的好处是可以做到被共享。

以后可能会出现学件市场,类似于 APP Store ,你可以花钱或者免费买到一个学件。这些学件基于通用性很强的场景和单元,有机会因此被业界共用。又因为它本身不是基于数据(它是基于数据结果),因此也不会造成数据的泄密。

上述这个框架由腾讯SNG 赵建春等提出。

基于这个框架的关键运维场景都怎么做?百度 曲显平等同学基于长期生产实践,给出了一个相关的能力模型。

如果被压缩得太厉害以致无法阅读,请下载白皮书。

四、AIOps 平台能力体系

这是腾讯IEG 刘栖铜团队提出的 AIOps 平台能力体系,包括数据接入、数据计算、数据存储,数据分析和AI建模 等。相关的 AIOps 平台能力体系如下,和 Google 、 Facebook 的 AutoML 有异曲同工之处。

五、AIOps 团队角色

主要分为三类:运维开发工程师、运维AI工程师和运维工程师。

AIOps 首先基于自动化运维。在目前的阶段,运维开发工程师有两种:一是运维自动化平台开发工程师,二是运维数据开发工程师。

这里的运维AI工程师是我们商量很久后的结果。有人建议叫做算法科学家,但觉得有点大;叫做算法研究员?这个名字很好,但是偏小,感觉又不能 cover 住所有工作内容。

后来我们商量,就叫运维AI工程师,因为这个岗位要求具备算法能力,对运维本身又有较多了解,又高于算法。

这里的运维工程师包括了运维领域专家和数据清洗及处理工程师的职责。是要干活的领域专家。所以不能单纯的叫做运维领域专家(毕竟得干活),但又不能叫做运维领域工程师(AI 界没这个怪怪的词汇)。所以最后先这样称呼之。

三种角色的主要贡献者包括平安科技陈亚殊团队及腾讯IEG 党受辉(咖啡党)等。

如果您有更好的称谓,也请献计献策哦。

另外,关于三类角色的招聘需求,也将出现在今年9月发布的 V1.0 中,敬请期待哈。

这个图的意义何在?不是试图讲清楚他们的相互职责,而是告诉大家他们的边界及如何内外部协同关系。

本图由华为消费者BG 周荣等贡献。

运维工程师是运维领域的专家,也是数据清洗工程师,是总的出入口。研发、产品、运营,把他们对于业务数据的场景需求、诉求提供给运维工程师。运维工程师具有相关领域知识,知道怎么向运维开发工程师解释和转换需求,告诉业务产品的难点与挑战,再反馈自动化的方案。

六、AIOps 常见的应用场景

AIOps 常见的应用场景包括效率提升、质量保障、成本优化三大方面。

在各个方向里,五级是什么样的能力范围,包括到哪一级应该是什么样的能力,这已经是 AIOps 标准的雏形。

质量保证方向包括异常检测、故障诊断、故障预测和故障自愈等。

故障预测现在有一些比较通用的,比如说硬盘异常预测,网络异常预测。硬盘性能预测也可以说是硬盘算命,它可以学习同类硬盘的各种历史数据,根据相关分析,告诉你硬盘什么时候会坏,据说有些家能做到准确率 99%。

关于性能提升方面,包括智能收扩容,智能调度和智能机器人等,成本优化包括单点优化、设备及CPU优化等很多方面。

6.1 智能变更

智能变更会挑战运维的生理极限。

自动化运维做好,但还需要人来操作。以前架构只是一套,如果微服务化,被拆成100个。微服务的最大好处之一是可以独立部署。这样,每天的变更次数变多很多,人工操作就力不从心了。智能变更有机会大展身手。

6.2 异常检测

包括如数据源的异常检测。假设数据中间时序断了,作为 AIOps 能不能发现并解决?另外异常检测也包括指标异常检测(单指标和多指标)及文本异常检测等。

6.3 故障诊断

故障诊断是很典型的应用场景,既可以基于人工故障库/知识库(类似 Google AlphaGo 一代,学习各种人类棋谱),也可以更进一步,无招胜有招(类似 Google AlphaGo Zero,不再学习人类棋谱)。

6.4 资源优化

资源优化,比如说IO密集型应用的优化(典型应用如数据库智能运维),这些都是很明显的基于 AIOps 实现。

本部分由腾讯SNG 张戎及华为消费者BG 张培等贡献。

七、AIOps的实施及关键技术

前面四个都是通用大数据的能力,右边这个图基于 BMC,从底下的数据源放上去进行算法分析,我们加上了顶层的质量、成本和效率。

AIOps 的实施及关键的技术,目前主要列出六类:

1 指标趋势预测

2 指标的聚类

3 多指标联动关联挖掘

4 指标与事件的关联挖掘

5 事件与事件的关联挖掘

6 故障传播关系挖掘

本部分主要由数智慧、日志易及擎创 AIOps 专家贡献。

可能很多人犯嘀咕,确实很难搞的样子。其实不用担心,里面很多具体的算法都会被固化下来。

AI,我们需要懂他,但不要害怕。

我们可以借助于相关工具和产品,业务跑起来就好。AIOps 并非要求每个人都是数学博士,就像想吃饭了,不需要每个人都得当厨子。

本次白皮书还附带一些案例,包括如下。

白皮书40多页,汇聚了各方贡献。

好消息:4月27日,AIOps 企业标准和产品标准均已在中国通信标准化协会立项通过,这也是对本 AIOps 白皮书的最大认可。

AIOps,对我们而言是一个好机会,我们有机会鸟枪换炮。在这个过程中,我们不能自傲也不能过于自卑,仰望星空并脚踏实地即可。

这是本版白皮书核心的编写专家,按照姓氏字母序来排的。另外清华大学裴丹教授作为顾问也亲自参加了较多撰写并给出意见。

通过研究,我们发现国内的 AIOps 并不比国外差。据上午演讲里头 Facebook 的人讲,他们的 AI 应用更多聚焦在广告业务增值。AIOps ,其实国外的研究和实践并没那么多。

对我们而言,生逢好时。

这是 AIOps 白皮书的下载地址。

关于白皮书您有什么样的意见和建议,欢迎一起来聊一聊。

文末福利▼

如果您想获得 AIOps 白皮书(纸质、签名版)

请戳下方二维码填写调查问卷▼

另外,填写这个问卷

也有机会获得如下大会的专场门票

您想关注更多 AIOps 白皮书如何进一步落地,AIOps 在 BATJ 有着怎样的实施?

欢迎关注 由数据中心联盟(DCA)和 开放运维联盟(OOPSA)联合指导,高效运维社区主办的 AIOps企业峰会。

本次大会将会有 4位AIOps 白皮书作者,如腾讯SNG AIOps 负责人 赵建春、腾讯IEG AIOps 专家胡飞雄、百度 AIOps 负责人 曲显平和华为消费者BG AIOps 负责人 周荣等来与您深度分享。

另有国内外金融(中国银行等)、通信行业等一线企业带来关于 AIOps 的思考与实践,AIOps 的实践和转化在实际场景中的体现与成果,我们期待您的参与,感谢您的到来,更期待与您思想碰撞出火花。

本次大会的三大亮点▽

(参加上述调查问卷,就有机会获得参会资格哟)

责任编辑:

投诉