各位领导和专家下午好,我是建设银行数据中心北京这边的,主要是在数据中心负责数据中心现在的创新,大家都知道数据中心过去的方式可能我们主要是稳定运维,现在除了稳定运维之外我们还加了创新,现在我们数据中心有一个处是专门搞创新的,我现在主要是负责这个处的创新工作。还有就是我们整个数据中心工具的建设,大家知道我们整个运维其实现在已经走向了从原来的手工到自动化,然后到人工智能,这是我们现在整个工具运维的规划和建设。我们今年在做的一个事情,就是我们整个数据中心智能化的规划,后续的一些演进的路径,现在在牵头做这个事。

郝丽萍

下面我给各位领导和专家分享一下我们建设银行在智能化运维上面的一些尝试和探索。后续还有一些我们后续实施的路径跟大家分享一下,有不妥之处也请大家多多指正。

现在我们先看一下,我大概跟大家分享的有三部分,第一部分,怎么来理解智能运维,智能运维是从哪个方面?它的概念是什么?我们怎么去理解?第二部分,智能化运维的框架设计,我们建行今年在年初启动了一个相当于人工智能大的事项的启动,我们设计了一些智能化运维的框架,我下面场景怎么落地,做了这项工作,我们数据中心也在参与相当于智能运维方面是我们来做的。第三部分,我们在一些场景方面的探索和实践跟大家作一个分享。

大家看一下我们首先数据中心现在面临的挑战是什么?第一个,我们认为现在数据中心的运维规模越来越大了,大家也知道现在我们今年又投入了公有云,整个相当于扩张特别快,相当于运维规模现在我们看了一下,差不多公有云、私有云加起来我们整个物理机差不多是1万多,再加上我们还有虚拟机差不多是翻了倍的在往上涨。

第二个高效敏捷,现在我们随着社会的需要、客户的需要,开发妥善的项目,过去每年有运维日历,大版本是多少个,8个还是10个,例行维护可能有十几个。现在我们基本上每周都有投产的,现在开发中心的项目基本上不让超过三个月,所以大大小小的项目基本上每周都有投产的项目,所以这对我们数据中心也提出了一个挑战,因为整个投产是我们数据中心在做,我觉得我们建行可能跟其他银行有些不同的就是相当于我们应用运维,数据中心要负责整个应用运维,开发之后在数据中心投产,数据中心要负责投产上线的工作,这块的工作量现在特别大。如果没有自动化的手段现在就是靠人,也是面临很大的挑战。

第三个,新技术的应用,大家也知道现在大数据、人工智能的发展,智能化运维变成了可能。

那什么是智能运维?什么是AIOps,其实今年大家可能参加过好多交流论坛,上面也有很多对于AIOps的理解,我们这是对一些标准的理解,什么是智能运维?将大数据与人工智能功能相结合的软件系统,以增强和部分取代广泛的IT运维流程和任务,包括可用性和性能监视、事件相关性和分析,IT服务管理和自动化。预期,根据Gartner的分析,智能运维相关的技术产业处于上升期。

还有一个智能边缘技术的应用也在推动着运维管理向智能化去发展,大家知道物联网、移动计算、社交网络、虚拟现实、机器人,还有一些生物识别的技术也对数据中心的基础设施的建设和管理方式提出了更高的要求。我们今年现在数据中心一个是北京有,一个是南湖有,武汉还有一个,我们现在试点了两个机器人的智能巡检。还有我们运维的自动化和无人值守,这些都是未来我们相当于对数据中心的物联网方面也提出了很高的要求。

还有一个对于智能运维的理解,这张片子是分析了一下什么是智能运维?它应该具备几大能力?第一个最起码的是感知力,大家知道感知力就是发现并学习管理对象的配置,其实就是监控,我的眼睛怎么能把故障及时地发现,发现在苗头状态之中,我们首先是要有感知的能力。第二个能力,要有控制力,其实就是大脑,感知力我们首先能发现、能看到,第二个要决策,要有大脑怎么去分析,发现事件和问题的时候我怎么去分析,分析业务影响,分析相关的关联性,然后做出一些判断。第三个控制力,能看到问题了、发现问题了,我能分析出来、判断出来,最后怎么去做、怎么去实施这个事,就是怎么通过自动化的手段把这个问题给解了,对故障处置及自愈的能力,这是人工智能方面应该具备的一个很重要的要做的能力,自动化的能力,这是三大能力。

还有我们也总结了一下,智能化运维除了三大能力以外还有几大特征,我们当时做整个规划项目有八个特征,首先第一个特征是会学习。相当于我们的运维工具,能够自动对生产环境当中的配置和监控采集的数据能够学习和形成知识,让我在后续操作的时候能够把这些知识引用进来。第二个能够感知,首先我能发现问题,能快速地发现问题,现在因为我们搭建了自己的大数据平台,运维的大数据平台,利用了一些开源的技术,流式计算,提高了效率。我们现在基本上是采用的10秒,秒级监控,10秒采集数据。第三个会分析,我们配置数据,大家知道做人工智能最重要的是大数据和配置,配置是我们相对静态的数据,大数据是我们相对动态的数据。怎么通过我们的配置数据建立我们系统的运维画像,还有进行分析、比对,了解系统之间的差异,产生差异的原因和提前预警的能力。第四个会推理,根据系统分析和评估的结果,利用故障场景、专家建议等规则或模型对故障问题提出推理的能力,就是能推断出它未来有可能会产生什么问题。

还有一个是可预测,我们现在还是利用我们的一些趋势分析和算法,这个还是要有一些人工算法在里面进行单指标和多指标的学习,建立我们系统趋势相当于预知的能力,预测到有可能出现问题的一种能力。可决策,刚才说的还是大脑的问题,大脑根据大数据的分析结果形成事件问题的综合分析结果,给后续的处置和决策提供依据。还有一个自动化,就是刚才我们说的控制力,自动化是要把简单的、重要的、重复性的工作通过自动化的手段来实现。最后一个可视化,我们今年也做了好多工作,今年我们相当于对我们的运维场景,怎么在我们的ECC里面有参观的场景、值班的场景,还有一些业务的场景,就是给业务看的一些场景。

上面是我们说的三大能力、八个特征。下面我们再介绍一下建设银行在智能运维的框架设计上,未来要做的话框架设计是什么样子的?大家看一下这是我们当时年初做整个人工智能规划的时候,我们当时是把数据中心所有的事项进行了收集,收集以后就是我们的一些应用场景,这些场景怎么去分类,未来怎么去实施,有什么路径,我们也是做了一个四象限的分析。从左到右,从低频到高频。从下到上,是从简单到复杂,把我们所有场景按照四个象限进行了分类。

实施应该先做什么、后做什么,我们也有一个,简单的有低频的,相当于机房资源、服务流程、备份这些,我们通过规范化和流程化来实现。第二个实施路径是什么?就是右下角这个,相当于又高频,重复性的工作多,又比较简单,我们通过自动化和半自动化的方式来实现,那就是我们的智能授权、应用部署、告警、聚合、合并、机房机器人、简单的告警自动化变更还有巡检,这相当于第二个。

上面两个是相对比较难做的,右上角又复杂、频率又高,可能也是我们现在最难做的,现在我们也做了一些逐步的尝试,这就是要通过智能决策和执行、经验和替代人的能力的部分,我们有做一些系统画像,有故障定位、智能基线,这里面的场景还有我们的变更。

还有是低频,但是相对来说又比较复杂,这就是智能辅助决策,这个我们就放在相对靠后点去做。这是我们整个收集了数据中心所有的运维场景之后,我们当时做了一些分类。

这是我们今年还做了一个很重要的工作也跟大家分享一下,就是我们数据中心拿运维数据做的建模,大家知道数据中心抱着那么多数据,相当于一个大金矿,你怎么把数据用好?数据中心到底有什么数据?今年我们做了一个很重要的工作,把新一代所有的业务数据都做了一个建模,支撑我们后面新一代的整个开发。今年我们把相当于所有的运维数据整个做了一次梳理,就知道我们有什么数据,未来我们这些数据能干什么?第一个目标全面掌握数据中心运维信息的分布,形成企业级的运维工作数据视图。第二个,定义数据中心统一规范。现在的效果我们做了一些场景,我们数据中心从运维到运营到底要做什么?我们做了一些尝试,现在我们在算一些成本,数据中心将来通过成本中心怎么向利润中心转的时候,这个成本怎么算?我们现在也在做一些尝试,就是这些数据未来我们怎么去用?而且这个数据是不是你一次建完以后,是不是就了无大事?这不是,这也是根据我们的场景不断发现缺的东西我们不断完善和补充的过程。

这是我们今年在做整个规划的时候,智能运维平台的一个PaaS平台,我们未来设计的PaaS平台就是按照这个图形来做的,最下面是我们的相当于管理对象,就是我们的计算资源、网络资源、存储资源,其实就是资源类的管理对象。这一层是我们的存储,第二层是我们存储的数据库,我们的大数据用的ES。数据存储之上是我们的平台服务,上面我们设计的时候有算力,人工智能的时候有GPU这些基本计算服务,上面还有我们的算法平台,现在有深度学习、机器学习的算法平台,这面是我们的数据进来以后怎么做服务,相当于我们的配置数据、大数据进来以后都要做一些数据清洗的工作。还有中间件,我们现在也用了一些开源的产品。

再上面,平台上面就是我们的场景,就是刚才我们看到的四象限里面的,这是我们举的一些例子,没有全面画出来,举了一些我们常用的场景。系统画像、健康度评估、智能基线等等,这是我们现在做的一些场景,最上面是我们的接口,这是整个相当于对智能运维PaaS平台的设计。

给大家分享我们的配置,建设银行做配置也是经历了比较多的坎坷,其实七八年前就开始做了,但是做了以后一直用的不好,从去年开始我们也把我们的配置重构了,现在建立了主要以场景建设就是我的配置怎么好用、怎么去做,我们现在把我们的配置平台重新进行了设计,整个全部的相当于包括数据生产和数据消费,自动化的全部是数据生产能力和多场景应用的数据消费能力,我们建立了整个生产通道,今年我们领导的要求也是,今年我们主要的是实现数字化,就是要把我们所有数据采到配置和大数据里面,现在我们建立了采集通道,实现了数据采集、清洗和存储,也具备了平台,我们现在把平台、网络、存储、应用的基本配置都采了,这个工作是要到年底完成的,基本上我们认知范围内的数据都要采到,具备结构化数据和文件数据的分布式存储能力。

还有我们建立了整个消费通道,其实数据采过来容易,采完之后怎么用?必须有数据的消费才能保证数据的完整性和准确性。数据消费整个是场景化,有什么场景我们去做什么场景。去年、今年我们一直在做,建立了消费通道,就是满足场景化的数据建模和消费需求,提供基础数据的核心对象还有对象之间的关系,后面像我们的系统画像就是基于配置自动产生的。然后是提供基础设施的一些基线管理、订阅、比对、下载等能力,还有是为应用场景提供基础数据服务。

我们的大数据平台也是基于整个开源产品做的,整个我们大数据平台也是建了有好几年,今年我们又做了一些升级,整个用的都是ELK这套开源产品,我们的数据采集大家看重要性业务类别,业务安全级别分为不同的层级。第一个像普通的日志集群,还有应用交易集群,日志集群有应用日志、数据库日志,还有整个我们的一些告警事件,还有我们的应用主要是针对整个应用交易监控做的,整个应用的数据,还有交易日志、性能数据,整个按照重要性数据划分了不同集群。整个我们采集的方式是有待遇的,无待遇的,接口方式的,三种接口采集方式。数据存储时间也是根据数据重要性来区分的,有7天的,还有交易明细数据是30天,还有健康检查是90天,还有一些交易的监控统计数据是2年。这是整个我们的大数据平台。前面的场景设计,还有我们整个智能运维的PaaS平台设计,还有我们的配置数据、大数据平台,其实构成了我们整个建设银行的智能运维的框架。

第三部分我再给大家分享一下我们的一些场景,基于这个框架下,我们现在已经应用了哪些场景?系统画像,大家知道系统画像现在说的比较多,系统画像现在是从哪几个特征,我们就能看到这个系统是长什么样的,应该是具备一个什么样的,就认为它能把这个系统准确地描述出来,我们现在也是总结了一下,一个是我们长期的配置数据,这个相对来说是我们的静态数据,相当于我们配置管理的数据,还有短期内的相关操作,还有系统行为模式。还有一个健康度评估,是每天要做的,看到底它的指标是多少就跟体检一样,能打多少分、在哪些方面有缺陷。

这是我们的一个图,大家可以看一下,左边的大图是基于我们的配置产生的,这个图会自动生成,如果你说需要看哪个系统整个配置画像会出来了,这是基于配置自动产生的。第二个,进去以后点到部署单元,就会显示出来下面具体又连接到哪些。第三个,相当于告警事件,就是我们的实时告警,点进去之后能看到上面告警数量有几个,告警事件有哪些,在这个地方都会列出来。第四个,配置管理进去的钻去,这个是我们现在已经有的已经做出来的。

第二个应用场景是应用和交易监控,这也是已经实现了的,第一个就是我们的秒级交易监控,10秒钟采一次,我们提供的是端到端的交易监控能力,建行对应用日志进行了改造,涵盖可用性、性能、容量三大指标,13个统计维度,日处理交易明细达到30亿笔。单笔交易跟踪、交易路径分析。

第二个是我们的应用状态监控,这个我们有一个应用的框架,框架里面我们相当于可以自己定义采集指标,现在目前我们已经应用指标400多个,还有动态基线,这是根据我们传统统计学的方法,算出了我们现在这个值不需要手工去调整,可以根据历史样本自动算出来动态调整基线。可视化,也是用的我们的大数据平台,是可以自己去定义自己去看的,还有数据聚合运算和数据采集。

还有一个场景是我们的事件智能分析及处置,这块我们在这些方面也做了一些尝试,第一个告警收敛,现在我们的告警收敛差不多能收敛到100:1,100个告警里面收敛之后最后能告出一条,最后每天能收敛差不多减少1万多条告警。还有是关联分析,基于时间的关联分析,基于购物篮算法讲事件关联推送。根源分析,基于配置关系,基于差异分析与自动化分析,基于趋势学习。影响分析,基于配置关系、规则、基于因果关系的影响分析,基于时间与因果的影响分析。事件处置,处置建议推送,半自动化处置、自动化处置。还有一个是智能基线。

还有一个是交易路径,这块也算是比较有特点的,我们现在整个我刚才讲的交易线,整个交易线从单笔交易到物理子系统能汇聚整个出来,最后看我们整个设计态,我当时整个交易系统之间关系是怎么设计的,我现在是从生产上去算,把这个算出来,按照领导的要求是去跟设计态比对,看到底现在生产上跟我的设计有没有差异?这是领导的要求,现在我们正在做这个事。

还有一个是健康度评估,我们现在每天有一些,这也是用了一些人工智能的算法,整个对我们的系统做一个健康检查,检查完之后要给每一个系统打一个分。

上面给大家介绍的是我们现在正在做的,有些已经实现的场景。下面这个是我们今年,因为领导一直在提,我们的整个智能化转型的目标和实施路径。我们今年2018年全面数字化转型,刚才说配置管理的大数据是我们今年的重点,我们要把基本上所有数据采了,把一些基础的工作要搭建完成,后面是我们的场景。2019年是全流程自动化的转型,将来相当于无人值守变更,现在应用的发布已经在做了。将来2019年重点做自动化和社会机房的智慧监控。2020年整个在我们2018年、2019年的基础上,我们怎么把智能化的场景应用的更丰富,怎么拓展这些场景,把这些场景用的越来越多,相当于我们比较难的那个地方去做,大家看到四象限里面最右上角那个怎么去做,让我们把智能化的能力相当于转型,也是我们建行对未来三年实施路径和未来的展望。其他没有了,谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-12-20 14:30:01
国内资讯 中国信通院发布《中国无线经济发展研究报告(2022年)》
我国经济尚处在突发疫情等严重冲击后的恢复发展过程中,保持经济平稳运行难度加大。 <详情>
2022-12-06 09:23:00
国内资讯 中国信通院发布《2022年移动物联网发展报告》
工业和信息化部《“十四五”信息通信行业发展规划》明确提出“推进移动物联网全面发展”。 <详情>
2022-11-14 10:12:22
5G资讯 中国信通院敖立:“5G+工业互联网”赋能能源行业创新发展
11月11日,中国信息通信研究院总工程师敖立在2022世界工业与能源互联网博览会上讲道,当前,”5G+工业互联网“持续赋能能源行业创新发展。 <详情>
2018-10-19 09:52:02
国内资讯 2018开放数据中心峰会盛大开幕:二十二项成果精彩亮相 技术创新推动产业升级
10月16-17日,由开放数据中心标准推进委员会(ODCC)主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院和英特尔承办的“2018开放数据中心峰会”在北京 <详情>