中国IDC圈7月1日报道,2016年6月24日,由数据中心联盟金融信息技术委员会主办、中国IDC圈协办的"2016金融信息化成果展示会"暨金融信息化技术委员会成立一周年报告会在北京国际会议中心盛大召开。

本次会议持续一天时间,共设置了一个主论坛和三个分论坛,分论坛包括大数据专场、数据中心专场、云计算专场。会议特邀了国内各大银行技术大咖及业界精英齐聚一堂,共同探讨"互联网+"时代下,我国金融信息化发展的现在和未来。其中,北京中亦安图科技股份有限公司产品总监冯磊出席“云计算专场”并发表了题为《数据中心智能一体化运维技术交流》的精彩演讲。

云计算-冯磊

北京中亦安图科技股份有限公司产品总监冯磊

以下为冯磊演讲实录:

冯磊:我简单地说一下,第一阶段我们称为离散式阶段,我们主要被业务驱动走,根据业务需求被动地相应IT建设,第二叫做数据大集中,不管是五大行还是全国的股份制银行,大家都经历过这个阶段,从所谓的省级大集中、全国大集中、甚至全球大集中,可能都经历过这个阶段。到眼下来讲,很多行实现了多活的数据中心,这是我们简单回顾一下数据中心发展的历程,当然相应的三个阶段,对运维的相关要求也是不一样的。比如说在初级阶段我们可能追随的标准化,在数据大集中我们更加追求的是流程化和自动化,到了多活甚至云化环境里我们追求的是智能化。

大家看这个图看得比较多,这是运维成熟度的模型,大家都是圈里人,我就不详细解释这五个阶段。

这是我们整个运维的框架体系,这个框架体系是咱们的工信部有一个叫ITSS,我们做了国内的IT运维体系,制定发布了一个相对符合咱们中国国情的数据中心运行标准。有人员、技术、流程、工具等等,我们从理论体系上来讲我们参照着什么来做这个事情。

我们简单回顾了一下在传统运维过程中我们存在的一些问题,在座有很多也是从事运维领域工作的,我本人也一样,我今年工作快二十年了,一直是在运维一线,不管是在哪个公司,哪个角色,主要还是在运维这个领域,主要的服务对象也是以银行为主,我们简单回顾一下,会有这么一些问题比较突出。比如重复性工作比较多,咱们运维有一个导向,从以前被动式运维转向主动式运维,主动式运维有一个非常重要的落地手段,就是我们的健康检查,俗称巡检,巡检这个事情说简单也非常简单,不管是客户也罢还是服务商也罢,都会有一个标准的巡检模板,罗列下来我要看出结果是什么样的,根据巡检的日志来分析有没有什么问题,因为这个看上去比较简单的事情,但是它所代表的含义是非常重要的,因为我们通过它可以实现防患于未然这么一个目标。反过来如果说我们的巡检主要是依靠人工的话,主要是依赖于责任心和专业能力。你让他做上半年、一年还可以,如果说再时间长了,难免会出现懈怠,包括我们所接触到的一些客户,包括自己的工程师都出过类似的问题,从而失去了巡检的意义,也失去了主动性运维的落地手段,这是我举的一个例子。

比如说咱们数据中心里面每年、每周、每个月都要做的适量的变更或者投产,比如之前我们在某个国有大行投产平均每个批次,我们要去交付的环境,基础环境的数量,大概在两百套左右,之前我们在交付两百套环境的话,基本上我们要去投十名左右的相对有经验的工程师,基本上我得做一周时间才能把基础环境给交付掉,包括从操作系统到集群到数据库,按照相关的一些配置规范完成相关的交付要求,花了一周的时间,交付出来的结果还参差不齐,这是我举的相对两个比较典型的例子。

这是从我们角度梳理的,我们对IT基础架构运维发展阶段的理解,也是供各位专家领导参考。第一称之为传统运维阶段,这个阶段就是以人为本,所有的事情都靠人工,或者是俗话叫靠人肉去做,甭管是简单的、复杂的、例行的、突发的等等。第二称之为标准化的阶段,传统是依赖于人,我整个的运维好不好,质量是不是有保证,主要是依赖于人自己的规范性、责任心、专业技能等等。第二个标准化阶段就是说把运维里相应的一些东西,在积累的基础上逐步梳理提炼出来,形成一些规范和标准,这里面包括两个层面的标准。第一是各种各样的运维流程规范,第二就是相应的一些技术标准,比如说我们最常见的安装配置规范,你的各种基建是什么,参数怎么去配。第三阶段称之为流程化阶段,在这个阶段主要借助于我们所说的ITIL,在运维领域ITIL是大家接触比较早的管理体系,当然现在ITSS逐步发布了,结合标准我们去构建自己整体的运维规体系。第四个阶段称之为自动化运维,这是什么概念?把我们刚才所举的重复性的日常需要人工去做的,在标准化的前提之下,我们通过自动化实现,自动化也分几个阶段,最原始的初级阶段就是写脚本,这个脚本本身是收集信息,做一些初期的分析判断,给出一个结果。再进一步的自动化,我们称之为产品的自动化,或者自动化的产品,把我们刚才所说的标准化的动作通过高级语言进行封装,形成所见即所得的功能,而不需要去关注具体的命令,而不需要登陆具体的操作系统,相对来讲对于我们运维人的能力,尤其技术能力要求就会降低。就像咱们银行以前每天晚上做批量阅宗一样,都要对业务、技术非常熟悉的运维人来做批量阅宗,后来我们就用相关的人员就可以做阅宗批量工作。再进一步我们叫做智能化,自动化是释放了我们的手和脚,把我们以前需要人工做的事情现在不需要了,通过这个系统、通过这个平台自动帮你完成。比如我刚才讲的巡检,安装配置,我在后面会陆续提到。智能化就是逐步释放我们一部分脑力的工作,实际上在我们运维里边有一个提法叫场景化运维,在我们所涉及到这么多场景里边,是有一部分的场景可以标准化,包括它的处理过程,也是可以标准化的,我们针对这类的场景,我们从场景,或者从问题的识别,分析、处理到关闭,整个的过程我们可以把它实现叫B环的处理。

这是基于我们这么多年运维经验基础上自己推出的一个一体化运维管理平台。其实从运维来讲,主有这么几个维度。第一监控,它是我们运维人员探测问题的一个基本手段。现在大家面临的问题,我们可能有网络的监控,有机房环境的监控,有存储的监控,有各种数据库、操作系统等等方面的监控,甚至还有应用的监控,各个系统之间可能没有相互关联,数据也不相互流通,从我们所接触的一些客户来讲,大家对监控这块也有一个比较迫切的诉求是什么?不是说没有监控,而是说希望我们构建一个叫一体化监控的平台,我希望把我整个基础架构领域,运维所涉及到的东西统一整合到一个集中管理平台上来,这是监控。第二个维度就是我们的流程,ITIL、ITSSM,我想在座的大多数客户和银行都已经上类似的,不管是流程的归分也罢,或者是产品平台的落地也罢。第三个就是自动化,把我们日常重复性的一些一线运维工作通过自动化的手段替代掉。再进一步我们还有资源管理,就像刚才青云那位同志讲的一样,在整个的Iaas层面技术越来越成熟。对于数据中心的运维而言,都会把所谓的动作在底层实现一个整合,进一步实现监管控一体化。

大家来看这是我们这个平台的特点。包括我们所说的标准化、流程化、自动化、监管控一体化,这里面内制了我们最佳实践在里边。

这是我们讲如何实现所谓的监管控一体化。从逻辑上我们是怎么落地,通过这个图可以给大家来展示一下。比如最底层的监控平台,通过监控我们会发现各种各样的告警,告警会报出来,通过短信、微信、邮件的形式推送相关的一些管理员或者值班人员。对于我们告警事件而言,我们一般处理上分为两种大的类型。一种是需要ITS集中过程管控的,我必须要去发起、变更,经过CMDB审核,再变更。再一类称之为例行性的变更,这种变更是不需要经过CMDB的,对于这种变更,对于落地变更的处理来讲我们又分为两种手段,第一种是人工,这种问题比较复杂,必须借助于资深的系统、存储一些专家来会诊,再一个是比较紧急的事件,这些不需要太复杂,它的处理过程也是非常标准化的,这种情况下我们可以把它封装到我们的自动化管理平台来。我们通过流程管理平台去和自动化平台去做对接,它可以自动去调用我们相应的自动化处理模块,进一步去实现,从故障的发生,到过程流程管控,到这个问题的处理,再进一步告警事件的关闭,实现闭环的处理,所有的过程都会跟CMDB关联。

这是我刚才提到的,我们所说的监管控一体化运维的具体应用场景。其实我们主要是总结出来三类场景,一个叫故障处理场景,一个叫系统扩容场景,一个叫应用发布的场景。我们可以先看看第一个故障处理场景。我举个简单的例子,大家都在用一些(英文),比如银行来讲,常用的(英文)和(英文),它有一个大的特点就是它对资源、尤其内存消耗非常高,大家经常会出现我们所说的(英文)、(英文)死的情况,当出现这个问题的时候,我们运维人该去怎么办呢?我们最常见的方式就是我把它重启,因为我要在第一时间、最短的时间内恢复我的业务,而不是找出问题是什么,这是我们给大家举的例子。而从它的故障现象到处理过程,相对来讲还是比较简单,也是非常标准化的一个过程。其实对于这么一个场景,我们可以从故障的识别,到故障本身的处理,我们全部通过平台封装起来,那就实现了从告警,从整个的处理实现了闭环的处理,这么一个过程。当然我只是举个例子,同类的还非常多,我不知道大家前段时间有没有看过一个微信,是工行数据中心一个副总发的微信,他说工商银行的数据中心一线运维自动化覆盖率已经达到了90%,包括我们自己在四大行的实践经验来看,目前我们在某大型国有银行的数据中心,在整个运维的工作自动化覆盖率,当然没到90%,但已经接近了50%,也就是说我们有很多的故障场景是可以把它梳理出来,当然不代表所有。一旦梳理出来以后,我们的效率会大大提升,减少了人为干扰环节,自愈式处理不代表我悄无声息地把这个事情解了,系统里面该有的痕迹也会有,我们运维人员所做的事情是当故障处理完以后,你该去分析问题,去分析问题就可以,找出什么原因导致的,我如何彻底解决这个问题,避免同类问题再次发生,这是我们要去做的事情,而不是整天重复在我去重启一下,或者扩容。

大家常见的扩容是扩个文件系统,甚至扩CPU,扩内存,因为我们整个基础架构,通过IAAS层面的技术,可以实现在线资源调整,对我们小型机也是一样的。这个调整就需要有人发出指令,需要有个调度,需要有个落地的手段去实现,X86的技术很成熟了,但是对小型机,像惠普等等也会面临这种问题。像刚才刘处讲的建行也实现了类似的功能,这是我们所说的系统扩容的场景。

第三个就是应用发布。这个应用发布,现在大家停得比较多,这只是把我们自己做的体会跟各位分享一下。我们也是在做一些大型国有银行,或者股份制银行。比如我们在做某行的网银发布,大家知道网银的业务变化也越来越快,它所需要发布的新版本、新特性的频次周期也越来越快,基本上每个月都要做一次。之前我们要投六七名工程师,从晚上十点开始要搞到第二天早上五六点才能做完,但是经过实现我们的应用发布自动化以后,我们的时间能缩减到50%.这个是怎么实现的呢?我在后边会去讲到,我们有一个称之为流程引擎技术,把我们发布里涉及到的所有环节串起来,大家知道应用发布是很复杂的事情,它需要在不同的IP,以不同的角色去执行不同的动作,而且执行的动作之间是有严格的先后逻辑关系,有串行,有并行,有分支,而且前一个的输出可能是后一个的输入,之前这些工作我们需要人工去做,后半夜来讲做质量也很难把控,到后半夜但是会犯困,难免会出现一些疏忽。通过这三个场景,给大家来展示一下我们在我们所说的监管控一体化是怎么落地的。

第二个把我们整个的平台简单地给各位专家领导介绍一下。这是我们整个的首页视图。这是监管控一体化,上面是我们的展示层,采集层包括我们刚才所讲的整个基础架构,乃至到机房的风火水电,我们这个平台不仅是我们自采的所有监控数据,我们也可以支持第三方的,包括风火水电,包括应用,包括其他的一些专业监控,我们都可以统一地纳入到统一事件管理平台来,经过统一的规则去展现和管理。这是我们监控的架构,这是我们监控的截面。接下来是我们的CMBD,有很多在座的银行,也都去做了CMBD,我相信大家在CMBD这块都会有些难忘的经历,包括我们自己从2008年到现在也做了不少的案例,但是实话实说,在国内尤其银行,CMBD真正用得非常好的屈指可数,或者叫寥寥无几。当然每个行有每个行不同的特色,今天这不是我们的专题我就谈谈我们自己的一些体会。

因为CMBD本身是一个非常美好的东西,看上去也非常高大上,大家对它的期望和定位也非常高,但是正是因为这些原因,大家一开始把目标定得太高,所以导致没法落地。有几个原因:主要是信息的不维护,维护有两种手段,第一技术手段,第二是我们的管理手段,就是我们的手动模式,从我们实现运维的过程来讲,我们很难做到百分之百的维护和更新,有一部分是需要手动去维护,这种情况下,包括有时候我们在把配置项目设置的过细,就会导致维护数据或者维护信息的成本非常高昂,往往会通过一些手段KPI等等,但是往往达不到相关的效果。首先我们要搞清楚我们整个CMBD的消费场景是什么,也就是你CMBD的消费场景有哪些,有哪些人会用到CMBD里面的信息,反过来倒推,我们CMBD里面到底需要维护哪些信息,到底谁消费谁维护。同时在一开始的时候不要把颗粒度设计得太细,因为这是不现实的。

这是ITSM.这是云平台。当然我们的云平台跟青云的定位不一样,我们云平台主要是管小机,能够支持X86,我们并不用我们的虚拟化技术,我们通过调用API,去实现把所有的虚拟化东西整合在一个平台上,形成统一的管理平台,提供给用户的服务目录。这是我们的云平台,我就不详细地展开了。

后面是自动化这块的功能,我简单给各位介绍一下。最下面是我们所说的批量管理、自动化安装、配置、应用发布、系统服务、运维工具等等,比如说系统服务其实是把运维里边常用的运维工作封装起来,形成一些可见的模块,也就不需要再去登陆系统,也不需要敲命令,只需要在我们的平台点击鼠标就可以了。批量管理这块,我简单地过一下。它的主要职责就是把我们需要未来维护的都是统一纳管到这个平台来,再进一步到了我们所说的批量管理,批量管理是提供给客户一个入口,除了封装的一些功能之外,每个客户一定有一些个性化运维工作要去做,而这些个性化运维工作通过批量管理我们提供一个入口,说白了把你批量工作通过这个批量管理平台把脚本挂进去,在你整个的运维环境里边进行批量操作,前提是你要具备这个脚本的执行权限,具备在这些IT系统上的执行权限,大大提升我们的效率。比如说我们做的一些安全加固,和批量改密码,批量收集信息等等。这是作业管理,批量里边执行的各种计划作业和知识作业,通过这么一个模块入口你会看到状态,它的执行结果。

这块是我们承载的权限的我就不详细展开了。再一个就是Agnet,像公有云和私有云一样,有些客户把开发测试已经迁移到公有云上,对运维人员而言,不管我们的主机是部署在我们自己的机房环境,还是部署我自己的私有云环境,还是公有云环境,都是我们运维的对象。作为公有云的服务厂商,或者服务提供商,它们只是提供最底层的支撑,确保你操作系统不会挂掉,能够提供基础的监控数据,CPU、内存、报错等等,但是里边详细的东西还是靠我们的运维人员恩进行处理,所以我们通过这个技术可以实现我们对公有云的管控。

这是我们所说的安装配置,我们主要是主流商业软件的自动化安装配制,这个安装配制可以实现批量,我可以选择十台、二十台及其同时批量进行装和配,主要还是一些商业化软件为主。这里边是内置我们大量的实践,如果你有相关的配置规范,可以把你的配置规范通过这个界面存起来,以后交付同类的环境直接应用就可以这就保证后续不管谁来交付环境,我交付出来的质量都是一致的,都是有保证的。

系统服务,举个例子,刚才我也讲了,我们把我们常见的一些工作,或者运维的动作封装起来,比如最常见的,我们要去收集一个(英文),那么这个(英文)说起来很简单,我们可能要去配个脚本,自动把它传下来等等,甚至(英文)本身,我们还要去发起,在(英文)里做一条定义,多长时间抓一次数据,现在这个事情不需要你手动去做了,只需要点个鼠标勾选你所需要操作的IP.包括去抓(英文),批量的改用户密码等等,时间关系我就不详细地举例子了。

后面来看应用发布,这是讲了一个整个应用发布的过程和做了哪些事情,在座主要的都是我们银行运维领域的人员,我就不过多说了。我想强调一下,在运维里面应用发布只是我们的通称,我们运维有很多是可以借助流程引擎,把运维工作串起来,应用发布是相对比较典型的应用场景。除了应用发布之外,我们还会做别的事情,我们的业务系统之间有很多关系,业务系统内部有不同的功能系统,比如交易类的,这种先后的顺序是有严格的定义,我们必须先关谁,后关谁,是有严格的说法要求,之前这些东西我们都需要人工去做,做这些动作本身,我们落地到每一个环节,每一个结点的操作来看,它是可以非常标准化的,在这个基础上,我们就可以借助于我们所说的流程引擎,我们把所有的事串起来,实现一键位发布等等。

后面是我们这个平台的界面展示,我们在定义整个的结点和步骤,我们每个小的模块称为一个结点,把所有的东西相关逻辑关系给定义出来,有分支,有输出、输入,当然整个执行过程中,你在定义完之后我们实现一键式的发布,发布过程中我们可以实现整个执行过程,可视化追踪,就像刚才这个图一样,你执行到哪一步会非常清晰地呈现出来,中间会出现各种各样的问题,根据我们定义的状态,它会及时地展现,这个步骤是报错了等等什么问题,点开可以看到报错信息,我们支持人为干预,比如我们执行到某个步骤之后,我必须要经过人工确认,必须要走一个流程审批的环节,或者必须要去插根网线,必须开个断口等等,这都是需要人工干预的。干预之后我们可以从当前跳两个结点再去操作,非常灵活。对于负责的运维场景,一旦定义完之后非常方便,刚开始梳理的时候确实是需要花时间精力的,因为它是一个比较细致的工作,我们把它梳理形成一个叫发布台帐,这么一个产出交付的东西。

最后看一下运维工具,其实也是我们最佳实践的规划和封装,这里边我们提供了自动化巡检工具,包括还有容量评估。我刚才也举过例子,通过我们这个平台可以实现从信息收集到自动化生成报告。我可以以一个非常直观、可视化的界面,把我们整个系统的健康状态打出来,同时生成PDF等等报告,同时我们这个报告还可以自动给管理人员发送邮件,同时我们还支持这么多系统的报告汇总,比如数据中心数据库也罢、操作系统也罢,可能不是一二十套,而是成百上千套,我们可以生成一个汇总报告,让管理人员一目了然,可以看出哪些系统有问题,哪些系统没问题。这是我们oracle故障分析诊断工具,我们大概内置了三十多种运维场景在里头,这些场景里面有的我们可以把它标准化,标准化的基础上我们把它封装起来,现在我们把这个过程统一地封装起来,你只需要点击鼠标,非常迅速地把这个关系罗列出来了。时间关系我不展开具体的东西。

这是我们场景的举例,花两分钟时间简单介绍一下我们公司,我们公司是2005年成立的,到目前公司是330多个人,其中工程师是260个人,主要的还是侧重在整个IT基础架构运维服务,这是我们获得的资质认证,这是我们的合作伙伴,包括我们的主营业务,包括运维服务、绿色设备、数据库服务、虚拟化,包括智能运维管理平台,运维服务就是我们所说的整个基础架构领域的服务。这是我们的主要客户群体,大家可以看到主要还是以他们为主。我今天给各位领导专家汇报的情况主要就是这些。谢谢大家。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-09-25 17:36:03
互联网 1—8月份,我国电信业务收入累计达11417亿元
截至8月末,5G基站总数达313.8万个,占移动基站总数的27.5%。 <详情>
2023-09-25 14:27:47
机房建设 “信力量 新可能”走进中企通信云数据中心(上海站)暨“算力中国行”上海站 活动圆满结束
在全球范围内拥有强大ICT资源的中企通信,也得到了众多如上海联合产权交易所等国内外知名企业的“青睐”。 <详情>
2023-09-25 10:19:13
国内资讯 数能相融 品牌新生|合盈数据发布绿色数能品牌—GED³
伴随着产业实践的深入,合盈数据将产业融合创新、生态可持续发展的认识总结提炼为GED³。 <详情>
2023-08-28 14:29:03
机房建设 从技术框架到建设与服务 数据中心如何向智算中心演进?
企业类智算中心数量还将增加,但规模较小,未来区域智算中心将是智算中心的主流。 <详情>