中国IDC圈讯  12月11日-13日,由中国IDC产业年度大典组委会主办,中国IDC圈、CloudBest承办的以“赋能企业数字化转型”为主题的第十三届中国IDC产业年度大典(简称“IDCC2018”)在北京国家会议中心隆重召开。

13日上午,IDCC2018分论坛,数据中心技术创新论坛正式召开!本次论坛邀请了行业内知名大咖和技术专家为大家带来当今数据中心技术创新内容的分享。

林德昌

会上,共济科技DCIM行销总监林德昌为大家带来了《中大型IDC的DCIM实践》的主题演讲。以下为演讲实录(未经本人核实):

谢谢刘总,谢谢IDC给我们这样一个交流互动的机会。下面我跟大家汇报一下这些年我们自己在DCIM方面的应用,我们发现这几年数据中心的建设非常火热,这个火热程度不用我讲,从早年大家关注整体的建设,现在更多的关注运维和运营,其实关心的是数据中心建完以后什么赚钱,怎么不出问题,怎么少惹麻烦。以前我们总说运维人员就像坐在火山口上的人一样,不出问题是正常的,出了问题怎么办?这是大家很关心的,今天我们就来分享一下这个话题。
  
  最近网络流行都已经很多年了,我们数据中心还是很传统落后的,这里面有大量的矛盾和冲突。比如最典型的IT基础设施,和机房基础设施之间的供需脱节,必然会导致大量的成本浪费、冲突和风险产生。
  
  对用户来说,他当然希望我花最少的钱获得最好的服务,比如说托管,要关心设备有没有问题,还要关心其他的条件能不能满足需要。对运维团队来说,今天早上王总也谈到,我能花钱解决的问题就不是问题,这句话放在运维团队来说不合适。因为运维团队希望花少钱办大事,这里就必然有一个问题,大量人工的操作,以堆人头的方式实现运维,就会有大量数据的不同步,没法发现问题,包括关键流程的缺失,带来了很大的隐患。
  
  所以我们需要的是跟数据中心、IDC匹配的工具,这几年我们也发现了,讲到DCIM有些业主赞不绝口,有些业主并不觉得发生了什么价值,更多是噱头,为什么会产生这样的情况?
  
  451Group做了一个调研,大家真正关心的是实现什么样的价值?左边的图可以发现,第6级功能是设施监控,我要能把数据中心所有设备信息采集上来,是个基础功能,所以有些厂家发现上DCIM是监控的升级版。第5级需求谈到了对制冷IT设备运维,把IT需求管理起来,跟制冷系统做匹配。另外关心资产和容量,在运维的过程中做容量匹配的时候,发现风险是不是得到了管控。左边这张图更容易理解,53%的需求是关于能效和环境的管理,就是传统的动环监控。53%在能源和环境管理方面,9%的需求集中在DC的业务规划。我们要管好DCIM,做合格的话,除了监控以外,我们要把数据中心资产、能效匹配,更好的匹配业务需求鹤归华,更好的贴近运维和运营的需求。
  
  我们看一下国内的IDC,他们关心的问题,除了前面讲的这些以外,关心收入,DCIM能不能增加我的收入,是不是能把运维团队管理起来,为整个数据中心得到很好的支撑。关心风险能不能有很好的管控,并且很重要的一点,整个IDC是不是可以持续发展。
  
  新进的其实越来越难弄,因为强者恒强,做得好的企业做得好必然有道理,所以可持续发展就很重要,大家都在做口碑。我们匹配不同类型的数据中心,不同的管理等级,不同的需求,需要匹配不同的东西。我们讲到IDC的运维不仅需要DCIM,还需要DCOM,这些是什么?我们做了顶层设计,来了解一下。
  
  最早大家关心的是人工运维,就是堆人头,能看到的能解决。后来大家关注机房的动态监控,这几年大家关心DCIM管理基础架构。我们认为DCIM应该是实现监控分析、基础设施的运营状况和趋势的前提下,管理好机房的资源、资产、能效,最终的目的是为了保证可用性的前提,减少浪费,提高效率。
  
  还有DCOM,面向运维、故障的生命周期管理,还有面向整体运营的服务,面向IDC能对外提供服务的能力,如何保障这些能力低成本达成,同时跟客户交互的过程中如何实现盈利,这是我们构成面向IDC来说的对应管理工具。
  
  这几年DCIM的蓬勃发展,2012年在国内被大家广泛认可,到现在我们走过了6个年头。我们可以看到整个行业也经历了明显的三个阶段,最早DCIM1.0,就是大的集中监控,把机房里的所有子系统数据整合上来,弄更漂亮的界面做展示,很多业主栽跟头的时候选择的是1.0的产品,因为是集成式的,换了个更漂亮的界面就完了。
  
  2.0是平台化的产品,能具备一定的扩展能力,现在需要对应的功能模块,可以快速扩展,可以根据用户的业务需求匹配相应的管理模块。
  
  3.0从超大规模数据中心、人工智能、云计算技术趋势的快速普及,我们发现3.0的特点:
  
  1.云化,面向云扩容有强大的处理能力。
  
  2.人工智能加大数据,让系统更加智能、更加方便。无论是互联网公司还是IDC还是运营商,大家都在关注如何做智能运维。
  
  3.可扩展运营,大家都在关注运营,关注这些工具怎么从成本中心帮助我们变成利润中心的转变。
  
  我们对市场做了了解以后,发现现阶段的DCIM有这样6个普遍的技术特点:
  
  1.监控管理平台化,把数据都收上来,作为整个数据中心基础设施运营数据的统一汇总平台,大数据的接入平台,实现基础实时告警、发布的枢纽。
  
  2.数据本身是很能讲故事的,但是这个故事能不能讲得通俗易懂,能不能让每个人了解数据背后隐藏的意义?需要通过一道合理高效有序的可视化工具,把数据故事更好的表达出来。
  
  3.容量掌控,以前在数据中心里大家更多关心的是故障和建设,对容量来说是长期被忽视的要素。数据中心里有大量容量,但是容量用不起来,为什么?怎么解决?
  
  4.助力运维,不仅是发现问题,还要推动解决问题,并且推动问题的持续优化,另外实现资源的规划。现在目前超大规模数据中心都不是一次把一万个柜建起来,那一期经验能不能指导二期,一期数据能不能帮助二期避免踩到相同的雷。
  
  5.做资源规划。
  
  6.分析与报告。
  
  我们做了一些落地项目,这是我们给中国电信做的一套系统,就把前面我们聊到的所有特性都在项目里落地了。电信客户总规模超过10万机架,现在做到二期项目,关心运维,里面有大量自己的团队,怎么把运维人员日常工作和应急工作管理起来,资产有自己的,有客户托管的,这些资产怎么有效利用,并且能够持续工作。
  
  第三关心容量,关心自己云资源池情况怎么样,要加服务器、应用,是不是能合适的加进去。我托管给客户,客户能不能用容量工具提高租用的模块,让客户更省心、高效。还关心能效,能源成本占运维成本的50%以上,目前数据中心的能效怎么样?我是不是达标了?是不是达到了预期,是不是还有节能空间。
  
  接下来我们就来拆解里面几个关键模块,看一看这里我们做了什么,怎么样给客户产生价值。
  
  第一,能效。
  
  1.无论是北京关于绿色节能的政策,还是全国各地鼓励绿色产业能效放在了第一位。做好能效要分三步走,第一步要有能效数据,不知道在座各位IDC从业者是不是已经清楚的知道,机房的每一度电,每一千瓦消耗在哪里,每个环节损耗了多少电,日常的平均值是什么,每月、季度、每年的平均值是什么?是不是符合预期,不符合预期问题出在哪里?我相信大家都是很关心这个问题的。所以第一步我们先要构建能效示图,能知道清晰的知道每一毛钱用在什么地方。
  
  2.系统,有了这些数据给到系统,能自动统计处5日平均值、当日平均值、7天、每个月、每个季度的平均值,推算出未来的趋势。
  
  3.调优,我们里了预期目标,到底是什么原因?偏离的时候是因为我们对数据中心做了什么样的调整?比如说回水温度调整,空调负载均衡,做了一些调整之后,是不是能对数据中心产生相应的,还没达到预期的调整,通过能效分析就能呈现。
  
  我们发现了这样一些措施是有效还是无效的时候,就会产生下一步的关键动作,就是第三个模块节能控制。我们会驱动人工或者驱动自动化工具,去完成相应的闭环,真正把能效控制在我们认为持续向目标靠近的值,而不是随机跳动。
  
  第二,容量。
  
  一个机房里又有电又有空间,空调没满负荷,但是有些设备装不上去,这个矛盾很冲突。我的设备要放在机房里,运维人员就不让放,业务人员看到机房还空着就很不满意,如果放了,比如说放在没有电的机柜上,就跳闸了,如果不放的话会影响赚钱,也不行。
  
  70%的机房看起来很空,但实际上已经满了,不做新的调整是装不了设备的。回过头来源看国内的机房,比如说能源类的7千平,1400个柜,我们上机架的时候整体资源平均利用率只有60%左右,但是这个机房已经用不了了。这是几亿的投资,利用率只有60%,意味着有40%的资源浪费,对机房的所有者来说是巨大的投资损失。
  
  我们走访IDC的一个经理,说他们的资产分为财务资产、业务资产,需要对整个资产的全生命周期管理,但是目前的资产是靠人工来管的,人工管理的资产对他来说带来了巨大的工作量。
  
  我们要解决容量问题、资产问题,认为需要两步走。第一步通过智能传感,让我实时掌握目前资源的使用情况,这是在电信安装的场景,在机柜里会匹配安装这样的智能传感,能实时了解到机柜里的使用情况,目前机柜里微环境的使用情况。第二步就是匹配智能算法,我们通过智能传感可以获取到整个数据中心NSPC的容量,N是网络,S是空间、P是能量、C是电力。我把基础设施的能力或者容量监测起来,就可以知道现在目前用了多少能力。我们对容量进行建模,告诉系统整个数据中心里面每层楼,每个模块,每个机柜,配电的每个环节最大的能力值是什么,我知道我的能力上限是哪里,知道目前的负载是怎么样的。
  
  每次要做相应变动的时候,就告诉系统,现在我想干什么事,能不能给我提供相应的方案,告诉我这个事应该怎么办,能实现容量最大化的算法。可以通过AI算法做智能匹配,无论是电力上架、机柜上架,还是两分配,系统可以做这个事情。通过一整套流程,实现容量最优化。
  
  无论是IDC运营团队还是IDC的租户,可以看到租赁区域和整个IDC整体容量情况,比如说空间使用容量,知道目前每个机柜装机情况,连续可用空间在哪里,知道电力使用情况,机柜电用的情况,包括网络、承重等等,所有这些因素都可以通过系统来获得,系统就可以获得相应的维度,这是包括空间、功率、中粮、网口、PDU,所有资源都可以获得。想获得对应资源维度情况,系统马上就能告诉你。
  
  第三,上架运维指因。
  
  做了这个东西带来的区别是什么?以前传统的方式,通过人工方式查找资源分布,知道每个机柜的负载,通过人脑匹配算法来找到匹配空间,手动推着上架。我们问了银行的机房经理,我有100台设备要放到机房,如果把资源利用率,人工算法算到最好的情况,这个方案要多久?他说大概需要一个月的时间。现在通过系统解放人员,解放流程,提高资源利用率,意味着我们通过工具能节省成本,扩大收益,能让系统从成本中心逐步走向运维中心。
  
  最后聊聊我们的想法,有些业主说上了DCIM发现很好用,有些认为不好用。我们要给到各位介绍模式的选择上,不要把DCIM当成标准产品,不要想着厂家把标准产品部署在这儿就能做好。DCIM是产品加服务的模式,也就是说它需要甲方的深度参与,因为谁的脚痛谁知道,道理是一样的。只有你最清楚团队的情况、能力、瓶颈、痛点,通过你的痛点能够告诉厂家,厂家才能提供有针对性的解决方案,帮助我们解决对应的问题,这是第一个。
  
  第二个在架构的选择上,我们认为选择的必须是有生命力的产品,而不是简单的集成方案,所以需要谨慎选择1.0产品,尽可能选择2.0、3.0产品,当然这跟我们的成熟度、数据中心的规模相关。
  
  第三个是分期建设,因为不同的时候面对的问题、困难、痛点是不一样的,不要一次把厂家所有的模块都布上去,我认为这是没有意义的,可能会造成资源浪费,另外没想清楚的模块装上去不好用,第三你装上去没用起来,后面想用的时候发现跟需求匹配度很低。
  
  第四个不要一想着上来就做大数据分析,首先要把数据积累做起来,数据的实时性、准确性、精度做起来,没有好的数据想做相应的分析管理,驱动数据运维其实很难。
  
  最近我们跟一个运营商沟通,他们想做大数据分析,但是机房里很多数据都没有,这时候就很难做,所以必须把前期做好。
  
  通过做相应的管理工具,之前在另外一个大会,有个专家讲。我们做智能化的运维、无人运维,其实就是革各位专家的命,自我革新。习大大讲话也提到了,我们只有用于自我革命,自我进化、自我完善、自我革新、自我提高,我们才能更有生命力。所以在座的各位搞技术的其实蛮苦的,但是我们可以学到很多新的知识和挑战,很有乐趣。
  
  我们讲一下DCOM是什么?故障生命周期模型这个就绕不开。这里有事前预防、日常维护工作、巡检工作、硬件预案,接下来杨老师也会分享应急管理。另外事发高效起来,通过服务台能实时跟踪目前所有的故障,进行故障分派。跟踪好每个故障执行,通过故障等级,哪个故障可以通过什么样的服务等级响应,不同的客户需要通过这样的时间响应优先级管理,需要把外包团队管理起来,要完成事后的等级优化。
  
  这是我们给某个客户做的项目,我们已经把前面讲到的故障生命周期里的核心模块做了,除了前面聊到的资产资源能效管理,包括服务台、巡检、故障、变更、服务等级、维保等等,通过模块与模块之间的部署、沟通,实现了整个团队的优化。
  
  除了这些以外,今天我们在座的大部分是IDC的朋友,我们看一下IDC还关心什么,除了让机房少出问题、不出问题,我还关心这个东西是不是能赚钱,跟我的运营有没有关联。作为运营来说,我们关心的是对客户提供的服务,这些服务是不是低成本获得、持续获得,并且客户是不是愿意持续付钱。
  
  我们要知道有多少客户,客户的服务等级、计价方式、定单是什么,客户跟我们产生的任务是不是每次都管理起来,持续高效的实现。另外跟客户合同条款等级、计价,出账单,应该付多少钱都要清楚。内部的账单,我们在这个客户身上付了多少成本,收了多少钱,哪个客户给我提供更大的价值,包括租户、服务市场,我能给客户提供各种服务能力,客户能不能在平台上订阅服务、订阅增值、订阅每次服务,订阅服务以后是不是能形成相应的计价、闭环,并且每次服务是不是真的赚了钱,通过这样的东西来运营,最终无论是IDC还是工具,最终实现商业价值的变现,数据中心持续的盈利和优化,这就是我们今天的汇报。
  
  简单回顾一下,我们帮助数据中心,除了把基础设施管理起来,上它更节能、更绿色、更高效以外,让机房少出问题、不出问题,这是DCOM的目的,走向整体的盈利,把我们的工具,把IDC从成本中心逐渐走向利润中心的想法,跟我们这几年在落地的,现在我们也在做这方面的项目,有些客户叫三合一系统,这是指IT、基础设施、业务,把三块整合起来变成一个系统,这是我们现在在努力的一个方向。
  
  今天我们也带来了系统在外面,大家感兴趣的话可以关注我们,谢谢大家。

【中国IDC圈原创 未经授权禁止转载】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-06-21 09:53:19
机房建设 数据中心设计的六个关键考虑因素
企业对基础设施的投资是昂贵的,因此任何组织都应该寻求从其资源中获得最大的输出,这是有意义的,特别是当业务需求要求对数据可访问性采用“始终在线”的方法时。 <详情>
2019-05-21 11:38:01
市场情报 怎样的DCIM才算得上优秀?
华为数据中心智能管理系统(DCIM+)为数据中心基础设施提供高可靠运维与精细化运营体验,确保数据中心运维流程遵从提升可靠性,辅助经营分析提升数据中心收益,极致优化能 <详情>
2019-05-08 17:17:00
运维管理 为什么基于云计算的DCIM不仅适用于数据中心
调研机构Gartner公司表示,首先,向混合基础设施的大规模转变正在进行中。该公司分析师预测,到2020年,云计算、托管和传统基础设施服务的支出将持平。这源于早期的研究, <详情>
2019-04-30 17:51:00
运维管理 提高数据中心效率的三个步骤
提高数据中心效率的第二步是关注数据中心的温度和湿度。为了管理数据中心的温度,IT团队应该优先考虑适当的气流管理,而不是简单地增加冷却能力。非管理的气流将在数据中心 <详情>
2019-04-15 10:08:00
云技术 企业DCIM:“上云”还是内部用?
出于安全考虑,有些组织可能对基于云的模型持谨慎态度,但那些在试用基础上并行运行内部部署和基于云的解决方案的组织通常会决定在云中部署DCIM。 <详情>