中国IDC圈讯 12月11日-13日,由中国IDC产业年度大典组委会主办,中国IDC圈、CloudBest承办的以“赋能企业数字化转型”为主题的第十三届中国IDC产业年度大典(简称“IDCC2018”)在北京国家会议中心隆重召开。

13日上午,IDCC2018分论坛智能运维安全论坛正式召开!本次论坛由威客安全和中国IDC圈承办,汇聚了来自来自运营商、互联网、数据中心云计算等多领域多行业的企业高管、嘉宾、媒体等。与会嘉宾们在大典现场,共话数字经济时代,聚焦数据安全问题,探讨智能化与可视化运维的新方向与新趋势。

微信图片_20181213122245

会上,中国建设银行北京数据中心处长郝丽萍女士,为大家带来建设银行在智能运维上的探索及实践》的主题演讲。以下为演讲实录(未经本人核实):

大家好!首先,我点个赞,给IDC的组委会点赞,我昨天拿到模板的时候,我看这是黑色的底色?我想为什么是黑色的底色?为了节能,我们现在做的大屏的时候,原来都是白色的,特别的亮,设备寿命也会减少,我当时一看,可能也是跟我们现在的绿色环保趋势有关,所以首先点个赞,我昨天让小朋友改这个PPT,我全部用了黑色的底色,符合一下我们的要求。

刚才主持人的介绍,我是北京数据中心,其实我们现在已经改名了,我们叫运营数据中心。各个行的名字都差不多,都叫什么什么数据中心,但是没有叫运营数据中心的。我们今年是数据中心的转型,做了两大事情,第一是从运维向运营转型,建设银行从运维到运营的转型,在组织架构上成立了创新团队,我们叫创新发展处,牵头数据中心的创新工作,包括智能化也是我们创新的一部分,还有基础设施的创新。第二,我们内部成立了公有云的团队,建行现在做公有云,我们有专职的公有云团队,今年6月份投产,已经承载了对外部的一些服务,把建行的一些业务输出给外部客户去用,这就是建行数据中心两大转型点。

下面说一下我们在智能运维方面的进展,刚才毕处也讲了很多,每个银行都在做,这两年智能运维也比较火,讲的内容也比较多,我跟大家分享的是建行在这方面的落地,跟大家分享一下。

我从三个方面介绍一下,第一是对智能运维的理解,怎么来理解智能运维。第二,我们今年做了人工智能,从业务到技术,到运维的人工智能的项目群,对智能运维有整个框架设计,就是平台的设计。第三,我们的探索和实践,落地的场景。

首先,我们对智能运维的理解,看一下挑战。刚才毕处也讲了很多挑战,建行也很多挑战。第一,我们运维规模不断扩大,尤其是公有云上了以后,现在都是上万台的物理机,人工运维的成本越来越高,完全靠人去做很多工作是完不成的,规模的扩大要求,要求我们思路必须要有所改变。第二,我们的高效敏捷,从整个建行投产的项目来讲,今年成立了金融科技公司,整个项目的投产差不多每周都有一个版本,运行维护日,有版本投产日,现在就是每周都有版本,敏捷的要求越来越高,如果没有自动化的手段,完成这么多的投产也不可能。第三,新技术的应用,现在大数据,人工智能,建行的自动化,人工智能是智能运维,也变成可行的思路去进行实现。

这个图刚才毕处也用了,这是Gartner的定义,定义什么是人工智能,就是大数据,机器学习,还有一个预期,2016年的时候部署率是5%,2022年要达到40%,这是发展最快的两年。

我们在智能运维领域有几大能力,我这里总结一下三大能力,第一是感知力,就是我们的监控怎么发现问题,怎么能看到问题,有学习的能力,有知识积累的能力,管理配制的能力。第二是像眼睛一样,有的时候能够看到,就是洞察力,有分析的能力,相当于大脑的能力,分析根源和业务影响,做出决策,就是AI的能力。第三是控制力,就是自动化手段,手的能力,我发现了,也分析判断出来了,最后怎么实施,怎么通过自动化和半自动化的手段把事件给出来掉,把问题给解决掉,这是当时做人工智能的时候,做项目的时候,我们总结出来的三大能力。

我们还有八个特征,根据我们这几年来做的工作,第一是会学习,怎么叫会学习?我们相关的配制和监控,通过自动学习让知识越来越完善。第二是能感知,监控的能力越来越完善,我们现在定义的是流式计算,现在200多个系统10秒钟就能发现问题。第三是会分析,就是我们的配制,我们有系统画像,还有运维的基线,能够比对,通过配制能够经过分析,分析比对有什么差异。第四是会推理,对故障和问题提供一些推理和决策。第五是可预测,根据我们推理和判断出来的单指标,多指标的学习,建立趋势的分析。第六是可决策,形成事件分析的综合比对,为后续的处置和决策提供依据。第七是自动化,自动化和半自动化的能力,我们对人工智能,什么样的事情做自动化的处置,什么需要人工去判断,简单重复的,频率高的首先做自动化,对已经有明确场景的就可以做处置,对复杂场景提供人工建议。最后是可视化,我们从去年到今年也做了很多可视化,不光是技术的可视化,还有业务的可视化,建行有三大战略,其中有一个普惠金融,就是国家刘副总理去建行参观,我们做了普惠金融的可视化,也得到了好评。我们在ECC,可视化的场景也做了好多。

第二就是智能运维的框架设计。今年年初在做项目群的时候,当时把我们所有的运维场景做了一个梳理,我们从简单到复杂,从低频到高频,对所有场景进行了分析。我们大概分了四个象限,右下角这个是高频的,比较简单的,我们落地的时候有先后顺序,这是我们首先要落地的,相当于我们的告警自动化变更,还有聊天机器人,智能授权。频率高的,重复的,我们就作为首先要落地的场景。右上角这个,是比较复杂的,频率也很高的,现在也是我们正在做的场景,就是知识图谱,系统画像,人工智能对运维帮助大的,刚才毕处也讲了这个场景。右下角这个是规范化,流程化的,我们很多年前,像服务流程,已经将近十年了。左上角这个是低频的,复杂的,能够稍微靠后一点,这是我们今年年初时候的梳理,把运维场景进行了梳理,人工智能的实施路径做了一个先后顺序。

我们还做了一个事情,就是数据建模,我们做新一代的时候,建行把业务的数据做了一个建模,当时运维的数据没有做,今年按照领导的要求,把我们数据中心的运维数据做了建模,对数据中心进行统一的管控,数据治理是最重要的,我们首先要知道有什么数据,数据有哪些,标准是什么,应该怎么管控。

可视化场景,人工智能很多配制的数据,基本上也在数据建模的基础上做出来的。

这是我们的一个截图,按照数据建模的几大领域做的。

这是人工智能的一个平台,我们做项目群的时候,运维的人工智能的层次应该是什么样的,有哪些技术不变。最下面是我们的管理对象,有计算资源,网络资源,存储资源,环境资源。上面是数据采集,我们采用的是有代理,无代理,API。还有数据存储技术,首先是MongoDB,还有ElasticSearch,Neo4j,Oracle等等。再有是人工智能技术的平台,我们有数据管理,数据清洗,数据解析,数据转换,数据服务。还有算法服务,现在有机器学习,还有深度学习,人工智能的平台打算明年1月份投产,还有各个领域的,运维领域也是其中之一,未来我们整个建行是大的人工智能平台,包括业务领域和运维领域全部含在上面。还有我们的计算服务,流式计算。再往上是典型场景,四象限里面的场景,这是举的一些例子,从里面抽了一些重要的,这是我们当时分析出来的场景,再往上就是我们的管控接口。

我们在整个框架中还有很重要的一部分就是配制,已经说了很多年,我们建行的配制管理差不多十年前开始做,当时也收集了很多数据,但是用得一直不好,因为手段跟不上,消费场景不明确,数据功能不明确,不敢保证是对的。我们去年开始进行了重新构建配制管理,采集什么,用什么,场景驱动的数据,我们到底收集那些书局,消费场景是什么,再去完善,对数据进行治理,我们建立生产通道,实现数据采集。我们今年是数字化年,把我们的数据,把大家认知到的数据都采到,保证我们的数据是完整的,保证数据基本上是完备的。第二是建立消费通道,就是保证未来数据治理很重要的,有哪些消费场景,保证数据的完整性和准确性。实现基础数据的基线管理,订阅,比对,下载等基础功能,这是我们的配制管理。

还有是人工智能很重要的一个,就是大数据,大数据平台我们保存在这里面。这是采集方式,有代理,无代理,还有接口的方式,我们的数据采集,数据集群,也做了划分。下面是对数据生命周期管理,根据使用要放多长时间,要存多长时间,这是我们大数据的一个平台。

第三部分,探索及实践。首先是系统画像,我们系统应该长什么样?系统都是一堆一堆的数据放在那儿,但如果拿系统画像画出来应该是什么样的?应该含有什么内容?系统的配制数据有哪些,近期有哪些操作,系统到底健康不健康,从这些维度来看系统画像。

这是我们的截图,最左边是整个系统的架构图,下面是网络,上面是我们的硬件,再上面是DB,再上面是AP,最上面是WB。第二部分是我们的性能数据,点进去以后能看到这个系统的使用率,内存使用率,整个性能的数据会展现出来。第三个是告警数据,会显示出来现在有多少告警,告警内容是什么。第四个是配制数据,点进去以后再往下看。

应用及交易监控,刚才已经跟大家说了我们的秒计监控,10秒采集,采集的力量差不多是70亿笔,日处理的交易量。通过我们的交易监控,可以看到交易跟踪,从哪个系统开始发起,最后结束在哪个系统,单笔交易的跟踪。我们也做了日志规范,通过日志就可以看到,投入跟踪号可以展示出来,再往上可以看到系统之间的交易路径。再有是应用状态监控,是用户自定义的,你需要监控哪些数据可以自己去定义,通过日志里面可以把数据抓出来,然后去展示。还有动态基线,这个应用是前两年做的,就是传统统计学的算法,看一下这个基线到底是什么,我们叫动态基线,还不叫智能基线。右面是我们的可视化数据,可以自己去定义,自己去分析。还有是数据聚合运算,数据采集就不说了。

这是我们的智能分析,最重要的是告警收敛,我们现在做到的基本上是99%,100个告警,收敛之后是1个,我们这么多年积累的告警规则,根据规则去收敛,还有是根据算法去收敛,基本上两三百条,原始报警是非常多的。再有是关联分析,有基于时间的关联分析还有基于购物篮的关联分析。还有是根源分析,所有算法一个是基于大数据,一个是基于配制,这是基于我们配制关系画出来的。右面是影响分析,也是根据配制关系,互相之间到底有什么影响。还有事件处置,有自动化和半自动化,有些场景明确的就自动化配制,不明确的,风险比较大的需要人工判断,就是半自动化的。

这是交易路径分析,上面这个图是监控系统里截出来的图,这是交易路径,系统之间是什么关系,我们交易途径的拓扑图。我们生产的交易路径怎么走,我们有设计态的,在系统里面相当于我们的架构资产,路径是什么,生产什么,生产态和设计态进行比对,生产的东西,投产的跟原来设计的是不是一样的,是不是按照设计实施的,现在我们正在做。因为现在交易系统确实比较复杂,路径又比较多,到底应该是什么样的?原来设计的东西是不是有变化了?我们要实时去比对,看看是不是按照这个规范。

还有是健康度评估,是我们天天做的,像人的体检一样,你的健康指标是什么样的,要有个打分,用了人工智能的算法,对各个方面进行评估,最后进行打分,分值应该是多少,然后给你个建议,看你应该做哪些处置。

这是我们今年年初的时候定的一个目标,也是我们的展望,就是数字化转型,把配制全部做好,完成基础配制的采集,实现部分人工智能的场景,平台的建设能力,还有场景的应用,就是现在的业务可视化,3D可视化。明年我们是全流程的自动化的转型,自动化说了这么多年,到底做到什么程度?在Gartner中,自动化的工具手段还在上升炒作的阶段,尽管做了很多,但是这个路还很长,明年重点还是要做,我们的数据中心是运营运维的,投产全部交给数据中心,日常的运维全部在数据中心,自动化现在这么频繁的投产,要求特别高,我们做了一键式的发布,最终做到无人值守。大量的场景应用我们觉得应该是在2020年,就像Gartner说的,40%最后部署率会达到,更多的场景去进行应用。

谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-22 15:25:05
2024-01-19 15:41:34
国际资讯 亚马逊宣布将在五年间在日本投资150亿美元 用于扩建数据中心
此项投资将主要用于扩建该公司在日本的数据中心,并加强其在当地的业务运营。 <详情>
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>