2020年12月8日-10日,第十五届中国IDC产业年度大典在北京国家会议中心正式召开。作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营­­商、互联网、金融、政府和厂商等产业上下游的高效沟通平台,与会嘉宾包括政府领导,行业专家和企业代表数千人。以“数据中心新技术与应用”为主题的分论坛于10日举行,广东浩云长盛网络股份有限公司全国运维总经理朱红兵发表了《数据中心全生命周期运营管理》主题演讲。

朱红兵

尊敬的各位领导,专家,大家上午好,我是朱红兵,来自广东浩云长盛网络股份有限公司,我从事数据中心运营管理有十几年,先后在电信运营商、互联网公司和第三方的运营商负责运营管理工作。今天以我自己的经验和心得分享一下数据中心运营的心得和经验。

第一部分,数据中心的运营特点和痛点,大部分时间聚焦在数据中心运营的解决之道,最后会有一个小的回顾和展望。

首先看一下数据中心的运营责任,作为数据中心的运营方肯定有很多KPI和压力,包括成本管理、人员培养、团队管理、SLA的达成。但是数据中心的最重要责任就是数据中心的可靠性或者可用性,因为数据中心的运营工作是为数据中心结果负责的角色。我是把数据中心的可靠性定义为永不妥协的指标,是作为我们的首要责任。

我们再看一下数据中心运营的痛点,第一个痛点就是宕机的风险,事故的种类大概有三大类,第一类是设备类的,包括UPS、发电机、空调,因为我们的设备跟生物体一样也有生命周期,设备本身也有磨合期、稳定期、衰退期,设备天然的性能落后这是一个大的原因;第二个原因是人为的原因,第三个是自然灾害环境的原因。设备的故障通过有效地预防性维护手段进行降低。人为故障或者自然灾害通常没办法彻底消除,所以我们数据中心的故障或者宕机的风险在某种情况下时可控的,但是没办法消除。宕机的成本又是往往非常高,我们看一下北美的数据,单次宕机造成的成本接近100万美元。当然这个数据我们可以拿过来参考,作为我们第三方数据中心运营商来讲,两类公司,第一类已经上市的数据中心运营商,这样的宕机事故对公司的股价会带来波动,对于我们这样新兴的数据中心运营商会大幅影响融资和公司的估值,这个是最大的痛点。

数据中心运营的第二个痛点就是运营的复杂性,第一个方面因为我们需要遵行或者依照的标准要求、规范特别多,包括我们有国标、UPITIME的规范。第二大类原因是可以看现场的运维管理工作,除了现场的巡检、设备维护,故障处理和隐患消除,做这些工作的时候还要保证SLA的刚性达成,还需要保证时效和系统可用性。第三个主要在于三个密集型,数据中心运营工作密集型:

第一,人员密集型,这个比较容易理解,举个例子,一个具有20个人的设计团队作为第三方数据中心运营商,它在国内应该是TOP10了。一个具有20个设计团队的第三方运营公司在国内可能接近TOP10了,但是一个具有20个人运营团队的公司只是刚刚起步,常规的中等数据中心人员需要20人,人员非常复杂。我之前所在的一家公司是国内的上市公司,整个公司接近500人,运维团队我负责的管理人员接近400人,超过了它70%的人员,这么多人员的管理难度是非常大的。

第二个,资本密集型。因为数据中心是重资产行业,我们2000个机架的数据中心,大概基础设施投资2个亿左右,如果含上服务器的资产和网络传输设备的资产,这样的数据中心里面的资产规模超过10个亿,接近15亿。这么贵重的资产在一栋楼里面带来的基础设施运维的,信息安全的,审计的要求就异常苛刻。

第三设备密集型,数据中心主要涉及电器、暖通、消防、弱电,但还包括土建、结构、压力容器等,计算机、网络、传输,需要很多复合型的专业理论支撑。这么多的要求导致专业性要求非常高。我们综合来看三个方面大的原因导致了运营的复杂性是非常高的。这是运营的第二个痛点。

针对数据中心运营的痛点或者特点,我们该怎么做?广东浩云长盛网络股份有限公司结合自己的经验和心得,我们有四个方面的解决之道。

一、完备和不断迭代的运维体系。数据中心的运维体系整体的接受度非常高,因为现在都或多或少逐步建立和完善自己的运维体系,但是容易出问题的是容易缺头和少尾。很多数据中心在中间的运营过程当中它的SOP、EOP、应急预案、应急演练都比较完善。但是有没有参与前期的数据中心选址,有没有前期阶段把自己的要求融入到设计规划里面去?在工程建造的时候有没有查验?有没有跟进工程质量?在验证测试过程中有没有主导验证测试?第二个容易缺的尾巴,因为我们数据中心正常的生命周期大概是8到10年,但是我设备的生命周期没有这么长,像蓄电池正常的生命周期就是6年左右,包括冷却塔、精密空调、风柜,它的周期5到8年的时候需要大修,需要优化、改造,这部分的运维体系很多第三方同行是容易缺的。第二个容易缺的地方是很多同行做这个事情的时候,它的运维体系有,但是很多年没有迭代。我们经常跟友商交流,看它的运维体系整体的非常好,放在文件夹里面,一翻2017年制作的,到现在三年了没有任何变化,但是三年的时间周期,数据中心的人员已经发生很大变化,数据中心的设备负载率发生很大变化,数据中心的设备性能也发生很大变化,但是它的运维体系一直没有优化迭代,还是那样的状况,没有与时俱进,这样就导致很多问题。我们有一个华南的数据中心在今年疫情过程当中,1月23号广东省已经发生了应急预案,但是这个公司到3月份也没有做预案,政府把这个数据中心所有的人员强制隔离了,他们没办法找了省内休假还可以回到广东的员工,加上托管的人员。1月份已经发布了严格的公共卫生预案响应,企业没有迭代自己的体系,还按照原来的方式运行就容易出现问题。

对于我们新兴的业主单位,或者刚刚进入这个领域不久的第三方运营商,个人建议可以参照一下MO的运维管理体系,优化和迭代企业的运维标准。

泰尔把数据中心的认证分为T1到T4,标准核心要素有两个,第一个它的拓扑结构,第二个是做它的运维管理能力。拓扑结构是现在主流的数据中心已经接受度非常高了,基本都是按照机房或者T3+的标准建设,这一部分在拓扑结构国内的差异不是特别大,基本都能满足这样的要求。影响一个数据中心的可用性,它的永续能力主要看它的运营管理能力,运营管理能力很弱,你的数据中心也未必达到T3+的标准。

简单小结一下:一个优秀的运维体系,一个优秀的运维管理体系,它一定有两个特征,第一个覆盖全生命周期,第二个它的运维体系一定是不断地优化、迭代,不断地完善的体系。

这是我们全生命周期运营解决之道的第一点。

全生命周期运营解决之道第二点,数字化运营平台的实践。因为我们知道单个数据中心的测点是非常多的,来源于视频、门禁、消防、安防,基础设施的数据一个2000个机柜的测点大概50万个,每天都会产生巨量的数据,这些数据怎么为我们所用,怎么提升我们的管理效率是我们要思考的。

我们引入了自己的数字化管理系统,实现业务的全面数字化转型,原来靠现场的巡检、排班的方式,现在全部系统化,我们的系统分成六个模块,包括人员组织、资产管理、运行管理、设备维护、协调管理、培训,等等六个模块。通过运营管理平台的实现,我们将国标、企业规范通过运营管理平台进行固化,持续保证数据中心运营的可持续规范性。

另外,我们还在运营平台上抓取数据,利用数字孪生技术来充分发挥数字化的价值。这是我们自己的一个案例或者缩影,可能很多数据中心运营方会有一个痛点,你所负责或者运营的数据中心涉及多地,或者多个,比如在上海和北京有多地多个数据中心,你迫切的想知道这个数据中心的运营状况好不好?是不是安全的?你依靠现场的数据是没办法做判断的。第二,你想知道这些数据中心哪个是最好的,哪些做的最差。我们通过建立业务管理模型,通过应用管理系统实现这样的管理功能。

我们的安全指数,首先有自己的计算逻辑,通过调取运营管理平台的数据,当然里面包含了BA,现场弱点系统数据,最终进行可视化的呈现,比如广州1号的运营状况,现在得出分数是98.2。这个是前期比较早的逻辑计算,现在每个季度会做定期地更新,影响数据中心安全的很多因素,包括告警、人员资质,你日常的巡检维护完成情况,变更、设备可靠性,文化的隐患处理和事件处理很多因素,这是一个相对主观的东西,各个业主单位也可以根据自己的需求,根据自己的管理特点自己定义这些东西,我们通过定义之后抓取BA、运营管理平台的数据做逻辑计算,最终得出广州一号云计算基地的安全指数的可视化效果。

数据中心运营的解决之道第三点要运营的白盒化,这个概念是最早在IT领域的,有白盒子和黑盒子,黑盒子就是封闭的不可见系统,白盒子是透明的系统。我们数据中心希望建立成一个低成本,灵活自由,开放、开源的可定制生态系统。我们当时希望做这样的系统,有效地控制运营成本,提高运营质量。具体实现有三个方面,第一维度实现人员的白盒化。很多第三方有一个痛点就是人员的招聘、考核、竞争面临比较大的痛点。我们做设施的白盒化,第三做事件和服务的白盒化。比如我们做设施维保的白盒化,比如某厂家的9395型号UPS,正常大部分的运营方怎么买维保,第一谈一个全包的价格,含了设备巡检、零配件维修,谈完就签了,或者谈一个清包的维保,硬件维修按实际结算。我们会分析设备性能,不同品牌,不同型号需要厂家的维保服务是不一样的。年限比较近,设备本身现场运营的环境状况比较好的UPS需要维保的深度不需要那么深,签一个相对浅的维保,含年度的巡检,含告警测试和除尘、除尘,但是对于超过五年的,我们单独做直流纹波的检测,通过这些检测更符合实际的维保需求,不同的UPS,我们购买的维保是透明化的细化的维保方式,这样有两个好处,第一个好处是大幅提高了现场运维人员的技能。因为你对涉及的维保要求高了,对于厂家的依赖度低了,对现场人员的维护水平要求高。第二个,有效的控制成本,让我们花的每一份成本都相对来说合理。

第二,怎么通过运营平台实现白盒化,讲一下人员如何通过运营管理平台实现人员的晋升、考核的白盒化。刚才提到过数据中心人员是一个典型的人员密集型的行业,我们现在规模还不算特别大,运维人员已经一两百人了,这么多人对应的人员绩效、竞争、定级是很复杂的事情,如果只是几个人的团队聊聊就完了,一两百个人的团队如果按照原来的考评带来的结果就是不公平,不透明,不公开,很多员工不满意。我们现在通过人员白盒化之后,我们浩云长盛网络股份有限公司所有的现场一线运维人员的绩效考核和晋升完全不用依赖机房经理,很大程度上减轻了人力以及机房经理的工作量,什么时候可以晋升,什么时候能晋升,绩效怎么样完全是由自己定的,而且所有人都可以看得到。

这是我们的广州一号云计算基地的运营数据,每一个人每一个月都会有一个星级积分,这个会直接影响他当月的绩效,这个月的绩效如果排名在前30%会得到很好的绩效,后10%会有一个惩罚。第一个,当月绩效分数会直接兑现当月的绩效考核,最主要的作用我们会看季度的积分,如第四季度的积分是累加10、11、12三个月的分数,这个分数排名前50%的人是可以自动晋升一个星级,原来0星级的会变成1星级的。对应每一个星级有一个星级补贴的,从1星到5星,满5星之后自动晋升一个职级,对应下一个职级的工资,完全系统化,所有的分数所有的员工都可以看得到。

星级分怎么构成:第一部分是60分的基础分,如果不是缺勤或者考勤的问题,基础分差异比较小,其它的为加分项,像应急演练等,比如这个同事根据现场的维护实际状况增加了一个演练场景,而且这个演练场景经过我们的专家主管评审之后,这个演练场景是符合需要的,这个演练场景就有演练分数。另外这个同事在11月份自己开发了一门课程,组织了这个数据中心的全员培训,系统会记录积分。还有事件处理,他主动发现问题,主动维修,他也提供了合理化的建议。一个季度累积一个季度的分数,跟绩效或者跟星级,跟职级也好,全部自动化了。我们的机房主管人员或者机房经理原来很想做评优评先,现在完全把这部分的时间大量升出来,专门做提高数据中心可用性的更重要的事情。通过白盒化之后很透明,而且通过这个方式之后,整个浩云长盛集团员工的流失率非常低,而且人员积极性充分调动起来了,原来很多员工不知道什么时候晋升,不知道未来培养的方向,现在稳定性的问题解决了,他的潜能和在数据中心工作的能动性大幅度提高了。

这是我们白盒化的作用。

第四,我们推行的是运维审计。你避免嘲笑的方式就是自嘲,我们是避免别人审计你出问题,或者避免发生重大事故时候的你没有应对措施,就是提前自己审计。第一个运作审计,第二个做履行审计。运作审计比如说对应的工作量,比如清晰冷却塔,会有一个参考工时,根据不同的型号会有一个参考工时,我们会审计这个工时是否合理,如果你远远超过了审计的参考工时肯定有问题,你效率很低。如果你清晰冷却塔正常1.5小时,你30分钟做完了也是有问题了,无非是你的质量大幅度下降了。第二部分是审计你的执行情况,现在很多地方不是没有标准,是有标准有规范,实际上没有执行,很多地方自己写的规范写得特别好,就是没有执行,我们是审计这个履行情况。因为我们自己第一个有国标,有定制化客户SLA的特殊要求,也有自己的企业规范,我们的审计标准就是审计他的执行情况。

它的工作流程基本按照PDCA的循环方式来做,我们审计工作分为季度常规审计,第二种方式通过不定期的非检。我们的几个深度情况,一部分涉及定制化客户信息隐去了。第一个强制整改项,我们根据运作审计和履行审计的审计内容和规范必须强制整改的内容,明显违反国标和企业标准的,影响安全的,影响性能的,影响可靠性指标全部作为强制整改项。第二类是观察项,比如说有些涉及到数据中心的外观、卫生,但是整改难度又非常大,这些问题可能未必真正的整改,会作为观察项或者报备项进行报备。

通过运维审计推行了差不多一年,效果也非常好,我们很多数据中心通过运营商的商务合同,运营商会参与到常委的审计当中,还有云公司,我们帮它做定制化的客户,它会自己做审计。我们通过运维审计之后自己通过比第三方审计更苛刻的审计标准审计之后,我们把内部风险屏蔽掉了,会有更好的状况迎接第三方审计。

今天大部分的汇报内容就是这四点,如何做好数据中心的全生命周期的运营,我们根据自己的经验提出了四点解决之道。有些东西也是做了很多创新,可能组委会把我们运营的课题放在技术创新的板块里面去。最后简单做一个小结,数据中心的工作一直跟两个怪兽打架,一个是黑天鹅,一个是灰犀牛。我们通过不断地践行上述四点:运维审计、运维白盒化,我们迭代的运维体系,数字孪生技术,我们浩云长盛网络股份有限公司几年下来通过不断地完善,迭代和优化我们运维体系,取得了长足的进步。我们的成都一号云计算基地阿里定制的数据中心在成都双流区,我们成都一号云计算基地作为阿里西南的创新示范机房,很多运维的疑难杂症和科研类问题我们优先承担的。广州一号云计算基地是华为的数据中心,我们今天在华为的比赛都是拔得头筹,200个队伍参加应急演练,最终胜出15个小队,我们广州一号云计算基地一个数据中心有两个小组。华为召开的全球合作伙伴大会,它在全球接近200个数据中心里面颁出了年度最重的奖项,优质服务奖,最终有两个数据中心获得优质服务奖,我们的广州一号云计算基地就是其中一个。这是我们目前的运营状况,已经得到了云公司和定制化客户的高度信任和依赖。

最后,我稍微提一下。因为我们浩云长盛也希望打造运营生态是一个相对开放,相对透明的自由的生态,我们欢迎友商、合作伙伴、生态链的朋友,特别欢迎在保证信息安全的基础上到我们浩云长盛做交流、切磋,可以共同提高管理水平和运营水平。

我们浩云长盛网络股份有限公司已经完成了国内的数据中心全面布局,在北京、上海、广州锁定了非常多的资源,相信如果是客户有这样的托管需求,浩云长盛网络股份有限公司可以提供的选择余地应该是非常大。

今天的汇报就到这里结束,感谢各位!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2020-12-11 11:53:00
国内资讯 【IDCC2020】圆桌对话:技术定义IDC
以“数据中心新技术与应用”为主题的分论坛上举行了“技术定义IDC”的圆桌对话环节。 <详情>
2020-12-11 10:07:00
数据中心节能 官方解读来了,中国首个权威液冷数据中心白皮书象限图发布
研究团队走访、调研了中科曙光、华为、阿里巴巴等中国液冷数据中心主流厂商,描摹出中国液冷数据中心的全貌,并与部委直属科研单位的液冷专家进行了交叉验证,在此基础上形 <详情>
2020-12-11 10:03:46
整机柜服务器 数据中心的“金属积木”是如何做出来的
12月8日-10日,第十五届中国IDC产业年度大典(IDCC2020)在北京国家会议中心盛大开幕。大会以“重新定义IDC”为主题,数千名数据中心从业者参与本次大会,共同探讨数据中心 <详情>
2020-12-11 09:48:00
国内资讯 第五届“攻城狮”数据中心运维大赛圆满结束!
12月8日,第五届“攻城狮”数据中心运维大赛决赛在北京国家会议中心落下帷幕。 <详情>