2020年12月8日-10日,第十五届中国IDC产业年度大典在北京国家会议中心正式召开。作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营­­商、互联网、金融、政府和厂商等产业上下游的高效沟通平台,与会嘉宾包括政府领导,行业专家和企业代表数千人。在以“数据中心新技术与应用”为主题的分论坛上举行了“技术定义IDC”的圆桌对话环节,CCIADC数据中心委员会人才与发展工作组组长王建新主持本次会议,北京比特大陆科技有限公司产品解决方案总监何含、有孚网络杜远、维谛技术有限公司(Vertiv)中国区数据中心解决方案总经理严瀚、北京优锘科技有限公司资深解决方案专家郭逸昕、UCLOUD优刻得高级技术经理吴成斌共同参与并进行了深入的探讨。

技术定义IDC

首先再次感谢观众朋友,并感谢台上的五位嘉宾。我们圆桌对话的主题叫技术定义IDC,我们可以想像定义的不仅仅是IDC的基础设施,可能也会定义IDC的运营环境,定义IDC的客户服务。我们今天就这个主题展开一次圆桌对话,让我们这次整体论坛有一个完美的结尾。

2020年党中央、国务院多次提到加快5G网络据中心等新型基础建设,首次将新基建写到了政府报告中,并在最新发布的“十四五”计划提出了新型基础设施,加快5G工业互联网、大数据中心的建设。新基建浪潮下,包括5G、人工智能、边缘计算这些新技术的出现和发展一定会对数据中心带来新的要求,产生新的影响。

我们数据中心可能从开始规划、设计、建设到运营的顺序,可能会面临解决电的问题,然后就要看计算是怎么跟电进行匹配,这些计算的算力应该是多大?进一步会产生热,我们会解决散热问题,散热之后又会想到日常运营怎么做优化管理,运维管理的问题,我们按这个顺序大家进行一下讨论,这样我们的观众朋友听起来也有逻辑性。

我们先看一下在供电方面,或者说电力方面,包括绿色用电方面,这两年出现了一些新的态势和发展,也可能会有一些新的技术,这方面请各位专家举举例子,把新的方向和态势,包括算力的新要求讲一下。

何含:我先自我介绍一下,我是来自北京比特大陆科技有限公司,我是何含。我们公司不是IDC行业的,我本人也不是IDC行业内的,我们公司主要是做AI芯片,我们属于国内国产芯片的设计公司,大概定位和国内的华为,国外的英伟达这样的公司比较类似,我们主要有两块业务,一块做数字货币这方面的,挖矿的设备,也涉及到一部分矿池、矿场专用型数据中心的建设。我所在的业务主要是AI,我看前面的嘉宾都有介绍,人工智能这部分,我们从16年开始做人工智能芯片的业务,现在已经迭代到第三代芯片,现在是AI+一切。

我个人有一点体会,我们帮助很多的政府数据中心建设一些所谓新基建的城市大脑这样的基础设施,它把城市里面的一些传感器数据,包括图像的数据拿进来之后做这种辅助城市治理跟管理,比如咱们现在所在的位置北京,我们帮助北京的海淀区做了它的城市大脑,海淀的城市大脑一个很有意思的应用,我会把海淀区每天在路面上跑的渣土车,运建筑垃圾的车,以前没办法管理的,也不知道符不符合规定的,有没有牌照的,有没有拉渣土的资质,是不是从合法的地点拉的,我们通过AI技术辅助它。我们把设备拿到海淀机房的时候发现,我们大概一台服务器设备,AI的加速服务器设备耗电要3000到4000瓦,海淀的机房是2013年建设的,现在七年,单机柜容量只有5000瓦,大概一台机柜放一台服务器,这是我们面临的现状。我们在符合AI去做这种人工智能型的应用场景的时候。碰到的现状,当然是经过大量的优化,压缩功耗,现在做到一台机柜42U,放两台服务器,占它8U的空间,剩下的30U空着。

可能是IDC行业的这些大佬们提的需求,我们现在面临着很大的问题,这是我的一些感受。

主持人:把需求提出来,后面四位数据中心的专家来做技术解决。电力需求这么严重,已经从农场的挖矿侵入到城市海淀区了,我们该怎么去抵御或者解决它?有请杜远总。

杜远:大家好,今天是我们商彦强总发言的,这次做技术的圆桌会议,我代表有孚参加这个会议,我叫杜远。我前不久还在看,这台柜子就放两台服务器,空着35U以上,电都跑满了。电的需求在这两三年增长非常明显,拿我们永丰数据中心来说,位于北清路,将近4万平方米,8500个机柜,大概不到3000瓦的样子。2017年竣工交付,然后等客户上一切好像找到需要13An客户的已经很少了,像BAT动则7千瓦起,12千瓦的柜子。我们数据中心进行设计的,提前的负荷计算都是做好的,我们总数一除都是算好的,不能变。我们永丰数据中心满打满算是6600个,不是物理空间没有,因为设计的时候电就在那儿,而现在这种6000瓦到7000瓦不是上线。今年疫情我们接触了一些客户,还不是什么互联网的大耗电客户,还是金融行业用电稳定的客户,他们对未来的展望现在是6到7千瓦,而且未来一到两年内对机柜的要求要达到10千瓦以上。现在具体有什么需求?你们又不是做AI的,说按照现在的技术发展趋势可能两年以后就不够了,但是金融行业一旦设备落下来就不打算用了,所以未来预期,要求做到12千瓦。从原设计3到4千瓦扩展到12千瓦,不光是电的问题,从空间、通道、空调的冷量、气流组织,它是一系列工程的问题,不是简单的换一个开关,换两根电线就可以跑了。已经从8500缩到6600了,不能再缩了,尤其有些客户已经交付了。从需求来讲电力增长速度非常迅猛,作为第三方的数据中心直接面对风暴吹到脸上,躲不掉,而且按照研究的趋势很快还会继续增加。新一代数据中心,它原有的基础设施内容和设计,如果没有一些重大的变革和改变的话恐怕很难去适应未来两到三年内市场对IDC的需求,这是逼着我们更新的事情,甚至与成本无关。因为如果你达不到这个效果的话,你是没办法适应市场的,你光省钱有什么用?都是与成本无关的。

严瀚:我觉得这个题目特别好,技术定义IDC,确实是真正的技术发展带来IDC的发展。Vertiv作为这个行业的从业者,对这块看的时间比较长,了解的方面比较多一些,我们首先从规划的角度考虑,会站在客户的角度,像二位专家提出来的问题,首先变化特别快。我们的数据中心无卡时代的写照,变化特别快。一方面密度在成长,对数据中心的格局会有很大的挑战。如果前面用一个固定的格式去建数据中心的话,未来工业密度增长之后你是没办法增加新的设备的,像冷机系统怎么增加水管,怎么增加空调的位置?这个变数非常小。你的供配电系统如果颗粒度做的并不是特别好,后期的成长空间也是比较小的,这个问题是我们很多客户遇到过的,新技术的出现可以帮助它很好的解决这个问题。像风冷冷却器占地面积比较大,但是我们新技术的出现把老的拆掉,新的安装在上面,技术的革新带来老数据中心新的成长和变化。

第二方面从资源角度考虑,我们公司一直特别注重对水资源的保护,包括水资源的应用情况,我们一直都特别关注的,而且我们对欧美方面的需求也了解非常清楚。美国水价比较高,因为数据中心用水量也比较大,它的数据中心是我们的三倍以上,在美国部分州的水价达到80块钱一吨,这会带来很大的概念上变化,因为水资源的成本会达到电费的很高的部分。

当有了液冷和新的方案出现时,PUE降到1.2,甚至1.1以下的时候,耗电量逐渐下降,电费就更便宜,微量资源的成本会出现很大变化。水资源的匮乏也出现了苗头,当地的水资源不足以支撑那么大的数据中心用量,未来会有很大的矛盾点,我们的方案也是一直在考虑这样的问题。

第三点,从规划角度,从全局的利益看,现在说液冷特别火,实际上液冷影响的并不只有空调部分,影响更多的是IT部分,可以减少15%到20%的风扇功耗,从变压器、开关到UPS一系列可以减少,还可以带来供配电系统运维的下降,是牵一发而动全身的。但是它对于建筑的成本加高,建在偏远中心,这又涉及到土地的考虑,数据中心越来越成为耦合的整体,我们需要考虑这么多的问题。

第二个从产品角度,我们坚持以可靠性为出发点,数据中心只要宕机了,它的业务价值就没有了,只有保证连续在线的数据中心的稳定才能够实现数据中心真正的价值,我们的产品首要出发点是可靠,其次才是能效的提升,我们不会过度的追求很多极端的解决方案。第三从服务角度考虑技术,数据中心运维方面未来存在海量的运维需求,怎么样实现自动化的运维?自诊断,自服务,自学习,这些技术的组成可以很好的帮助IDC成长。

主持人:非常感谢严总,在电力资源之外又补充了水资源的前提条件,开发了话题的延展性。下面请郭总。

郭逸昕:其实这方面我真不是专家,我们是可视化为主,杜总提的特别好,我之前做运维的时候也遇到过,想要发展云计算,但是机房是09年设计建设的,改的时候发现电不够,怎么办?退而求其次,有两个机房的IT设备已经不跑了,从以前1.8到1点几,在北京的周边遇到的问题更多,好多IDC的小伙伴都会遇到这个问题。我后来发现时代变了,数据要求的更多了,单机柜的功率要求更高了,这个时候发现电又涨不上去,等于我投了一大笔钱,但是可能只能实现一小部分,没有达到我自己预期的百分百目标。我想问严总和吴总,他们基于这个问题怎么解决?

吴成斌:我非常赞同严瀚总刚才说的不确定性的问题,这个确实是难以预测。我们自己建设自己使用的数据中心的时候要确定这个机柜功率都是非常困难的,我们的公有云业务可以说是相对来说自己的需求应该有一定的可控性,但是我们去找需求部门,也就是公有云业务部门了解它们需求的时候,它们也很难说出对未来几年功率的需求,我们更没有办法预测托管客户未来几年的需求,是4.4千瓦还是6.6千瓦。我们在规划设计的时候可能需要非常注重灵活性,这个需求时刻在变,我们需要适应这个需求。

另外一点,我想分享的供配电专业是一个非常传统,非常古老的专业,在其它的建筑类型里面,它几乎在几十年里面都没有什么变化,而数据中心的供配电日新月异,近几年出现了非常多的新技术、新架构,包括高压直流、智能PDU,还有2N架构、RR架构,这种真的是技术的更新是其它建筑类型远远不能比拟的,所以说这也是我们技术定义IDC非常重要的体现。其它的也有经济性和审美需求驱动的,比如以前办公楼建十层,现在建几十层,上百层,不是技术发生了变化,而是经济条件更好了,我们可以建的更高。以前外立面做瓷砖,现在做玻璃幕墙。数据中心技术迭代特别快,技术的变革导致了数据中心形态的变化。这是我的分享。

主持人:谢谢各位嘉宾,关于电力我们建一个数据中心把总的电量规划好,设计好,然后通过供电公司谈好之后,我们拿下政府的能耗指标审批之后,这仅仅是电力的第一步,第二步在自有的园区里面、数据中心里面根据用户的需求这两年变化太快,也无法预测,电力结构在数据中心内部怎么弹性管理目前还是比较大的困难。我们通过非技术的办法已经没办法改变了,一定要通过新型的技术办法,这种办法到目前还不够成熟,但是我们已经认定投入非技术的办法改变不了,大家通过很多血的教训都没办法改善,都有很大的损失。

我们期望电力的弹性架构技术能够有新的发展,促进我们数据中心的布局,内部的电力布局能够适应用户快速增长的电力要求。

我们谈一下第二个阶段,我们把电弄好了,要建数据中心有两种建设方式,一种是现场工程的建设方式,一种是新型的比较热的预制化建设,刚才谈到了核心的解决现场工程的质量和协调问题。这些在建设过程当中还有没有技术方面的实践?或者技术上的新升级?能够让我们的观众朋友,让大家对这个有所了解或者有所认知。有孚、Vertiv、优刻得这方面实践经验更多一些,三位老总主讲一下,其他两位嘉宾愿意分享也欢迎。

杜远:刚才主持人说的的确是,就在现在,就在昨天,甚至在今天,我们现场的工程还在继续,我们的确有在建机房紧锣密鼓的施工,也是由于前半年疫情的延误把应该交付的项目拖延到了下半年或者明年初。现在的机房建设跟前些年比起来,的确预制化的工作越来越多,有很多相关节能技术、节电技术、节水技术,这些技术在设计阶段和设备出厂阶段其实都已经把技术难关攻克掉了,更多在原理和制造阶段就已经攻克掉了,到了现场更多是搬运、组装,这些是这部分工作。

从原理,有孚的数据中心在座的去过的人不是很多,像我们的水冷机组全部在顶层,露天的,我们的基础设施会放在机房内某一层,哪一层呢?不一定,一般会选择层高最矮的一层,因为基础设施对层高的要求比真正的机柜的空间要低的。然后尽量选择靠中间的一层,比较省电缆,电缆很贵。咱们觉得你要放在一层,我到五层的电缆长,到二层就短了,放在三层到两边都是取中,总数应该差不多吧,是差不多,差一两千万成本,从机房的建设来讲数字不是很大,但都是真金白银。

从工程来讲,由于数据中心建过这么多个,在工程上的难点也是在前期设计阶段就解决掉了。其实我这里讲一讲刚才提到的一些节水技术,我们采用的暖通系统除了传统的水冷机组以外,还配了热管系统,这一块是为了降低PUE,因为对于大型数据中心来讲PUE降低0.01,可能节约的成本就是以百万级为单位的,电费是数据中心运行的最大成本。采用热管系统是完全通过冷酶在气体和液态不同温度的物理转化进行制冷的一套空调技术,整个过程不耗电,让我们全年有30%的时间冷机不用开,这样来综合降低用电成本,降低PUE。而我们的水冷机组采用风冷式水冷机组,没有冷却塔,这样就不是靠水的蒸发而是靠冷却水进行降温,我们通过室外风机进行降温。我们是风冷式水冷空调,从能耗来讲比传统的冷却式能耗要高,会提高我们的PUE,风冷式毕竟用一点电,但是从水上节约很多,一年应该是节12.1万吨的水。我们的补水箱很小,咱们四个会议桌摆在一块,这个箱子里面的水够六七千个数据中心的规模在断水的情况下跑48小时,通过这样的技术进行节水。

从工程周期角度再来看,我们第一个数据中心2017年年初开始建设,年中已经交付,七个月的时间,第一期2000多个机柜交出来。说明咱们在工程设备的出厂设计阶段工作很完善,你想想自己家里装修装多久,装三四个月是正常的,一个上万平米的中心,六七个月时间从装修到所有设备的联通到最后的测试就完成了。我想说的并不是在建设过程当中有什么新的技术,而是产品越来越成熟,施工越来越规范,导致成本的效率都在不断地增加,而且随着模块化数据中心的建设,我觉得往后速度会越来越快,成本会越来越低。

严瀚:在建设方面可以从两方面考虑,一方面新建,一方面改造。从新建的数据中心角度看,目前预制化是最热门的方向,怎么提高数据中心的周转率。现在看到很多从投融资的角度讲这个问题,因为要尽快变现,这个就对数据中心建设速度提出了要求,以前我们建一个大规模的数据中心可能从规划到落地要三年时间,现在越来越快,可能六个月时间这个数据中心就从图纸上交付了,这个对于我们的挑战是非常大的。这样迫使很多产品和解决方案必须实现预制化,我们这几年在预制化方面做了非常非常多的案例。国内的主流超大规模数据中心基本都采用了我们的预制化解决方案。从电力预制化角度,我们从变压器到供配电,到UPS,到UPS的输出柜全部整合在一起形成一个工程预制化产品,这样不但可以提高效率,内部通过连接可以实现上下游的智能管控,可以实现一体化的交付,极大减少客户的现场工作量,可以实现快速的交付。

制冷系统我们推荐全变频弗泵非的状态,它一个最大的特点是全变频,采用了我们的黑科技叫全时自然冷技术,全部时间可以根据室外的温度灵活调节输出,最终实现最好的效果,颗粒度小100到200千瓦,一个机房一般1000到2000千瓦一个单元,可以保证每个机房达到很高的效率,从而使得机房达到最好的效率。还有间接蒸发解决方案和集成冷站,我们最快的一个月到货,三个月交付。在改造的数据中心方面,面对刚才杜总讲的功率密度的成长带来的问题,我们的解决方案讲究风液长期共存,讲究供配电各种颗粒度,为了满足客户不同的时间需求。这种变化的解决方案可以适应客户的多变需求,而不是以一个方案适应所有场景,实现客户在线扩充。银行90年代建的数据中心,现在还在做主用的数据中心,这些数据中心更换是很大的问题,我们的架构可以实现一个换一个的方式,在线实现运营和扩容,这个改造的难点也是未来数据中心面临的问题。我们从10年开始大规模的建设大型数据中心,到现在十年了,很多数据中心的空调已经进入了衰老期,效率会发生下降,这部分问题可能会逐渐暴露出来,未来这个问题可能会成为明年的热点,数据中心怎么改造升级。

吴成斌:这种模块化的建设方案确实能解决很大的痛点,举个例子,乌兰察布的数据中心现在还在进行施工,现在当地已经最低温度零下15到零下20度的,还有一些室外工作,比如幕墙的工作。这是非常难受,非常困难的,对于工人师傅来说也是非常痛苦的一个事情。我们到现在半个小时已经冻的连说话都比较困难了,他们要在现场一天工作八个小时甚至更久,如果采用模块化的方案,这个季节会把工作放到厂房里面,而且不会耽误施工和交付进度。而且现在模块化的建设方案也越来越多种多样,基本上能够满足用户的各种需求,从不同颗粒度的各种需求,从最小的微模块到集装箱到一整栋楼都是预制化的,这样可能建设方、运营方都有了更多的选择。我们在方案设计的时候也考虑过这种方案,当时考虑到我们还是初级选手,还不太敢尝试这种新型的建设方案,所以说觉得还有很多的技术细节需要去完善。

另外,我们客户的接受度问题,包括寿命问题,可靠性问题都需要随着时间,随着业界的努力去解决。尽管现在大家还有很多疑虑和辩证的过程,但是这种趋势是不可避免的,未来模块化肯定是一种非常重要的建设方式,数据中心的形态之一。我的看法就是这样。

主持人:谢谢三位嘉宾的表述。尤其感谢一下严总,帮我们扩展了思路,建设不仅仅是数据中心从零到有的建设,建设之后还有一些新增,还有大的改动,其实也归属于建设,这种建设该怎么考虑的问题。

下一步,数据中心现在建的差不多,我们要考虑把用户的服务器和设备放进去,但是现在我们发现跟以前不一样,现在是云计算时代,跟五年前、十年前单独托管服务器不一样了,它带来一种弹性的变化,也带来密集度的变化。这种对于我们的数据中心产生了什么要求?或者未来的数据中心是不是需要百分之百可靠?有没有更好的冗余方案?

何含:我现在从事的主要是人工智能部分,我从计算的理解AI的计算更多像是专用计算,不像通用计算,原来长期的大型IDC建设很多是服务于通用型的业务。比如这台服务器今天可以拿来跑数据库,或者给财政局用,明天给税务局用,或者今天给个体用,明天租给另外一个个体,这个空间可以复用的。

AI我们目前看到的趋势基本形成了两个阶段,第一个阶段叫训练,这个部分是服务于科学家的,或者服务于世界上比较聪明的那部分头脑搞科研的数据学家,计算机学家,这部分相对来说算通用,但是也只服务于少数人。

现在大量的应用是人工智能这部分的应用更多叫推理,科学家研究出来的东西,包括算法公司研究的算法模型总归要拿去用,我们讲的AI+智慧制造,AI+城市治理,AI+无人驾驶,AI+一切。我理解的新基建之前也有一些表述,其实AI看起来是加速器或者润滑剂的能力,我们叫共性的使能技术,什么地方都需要,但是它又不完全独立存在。另外一个特点是讲到的专用部分,AI的推理计算,当你部署的时候会出现这台服务器可能就是给财政局用的真的只能给财政局用,明天你拿掉了它上面跑的算法和模型,耦合度比较强的,很难再交给另外一个用户,它不是平滑切换的,不是把原有的业务卸掉可以直接上新的业务,AI的发展这是一个比较大的特点,怎么区别一个数据中心里面专用计算留多大的容量,怎么考虑未来的弹性部分,而且它又不具备那么高的通用性,这个问题怎么解决?

另外,我们现在看到的情况是在单个节点上面的计算能力这个也是专用计算和通用计算比较大的区别,当然我们是做专用计算芯片的,我们做到第四代芯片的时候可能和第一代芯片的计算能力大概会有100倍的提升,这个时间在三到五年形成的,这个和通用计算有比较大的差异。因特尔的能力是每两年2%,3%,5%,大概在挤牙膏式的很缓慢的增长,这个建设是线性的。你怎么面对这种AI的计算能力?它是指数级,可能同样的计算单元,今天组了一万个节点的网络,但是它可能就是386,你两年之后就是奔腾和386的区别。而且GPU服务器还有大量的通用单元,是异构设备,你说都废掉吗?那些通用计算能力都废掉吗?似乎也不太合理,这也是我们现在考虑的问题。这个确实是作为我们在人工智能领域里面的一个探索,我们也在思考这些问题,因为我们本身也在不断地和各个IDC厂商,做服务器的厂商有些密切的沟通,这个也是我们现在看到的问题,随着技术的迭代会得到一定的缓解或者大家会有相应的办法出来,这是一个现状。

杜远:我们全国都有布局,而且有孚云也是我们主要业务,有孚一个是数据中心,一个是有孚云计算。我说两点,第一从安全性要求来讲,云化是现在已经不算多新的了,已经是普遍的词了,从一个房间里上面放着几十,上百个柜子,从一个柜子里放着十几,二十台设备,从一个设备可以云化出来几台云端设备,我这个楼塌了,后面一切都没了,机柜没电了,从服务器来讲当它出现问题的时候,后面的云端自然就没有了。相当于基础塌了,所以安全性同样重要。

从运维和运营来讲,这个在行业里是有些分歧的。我记得去年参加了国家标准的编写,国家GBT28.4的数据中心规范,我们交付的是地板上地板下,我们交付给客户的地板下,把电通到机柜,剩下的跟我没关系了,IT设备跑的是IT运维层面,不是数据中心层面,数据中心说白了风和水电。但是标准柜里面有另外一个中心,也是做数据中心运维运营的,他们认为IT设备以及上面跑的系统和数据都属于数据中心的管理范畴,这对于他们的企业就叫数据中心。对于我们的企业已经不是数据中心了,我们提供到地板和电,给你电,给你环境,给你温湿度,但是对于他们来讲IT设备上跑的系统和应用都是数据中心。视角不一样,你对数据中心的运维和运营的要求自然也就不一样。

如果把IT层面拿进来,尤其是把云拿进来,有孚合作的腾讯运维平台,可视化的运维其实是把日常很多运维工程师的工作,不管是基础设施还是IT层面的拿到一个系统里面来,像管设备,管物的叫做DC,管人的叫DCOM,管人的叫做DCMM,让运维人员可以直截了当的看到结果。大多数只是自动化,可以省很多人力物力,但是所有的自动化产品都给自己加一个帽子叫做智能化,而真正的智能,真正的AI是在自动化之上,先做到自动化才能智能化,自动化的市面上见到的接触的几个还做的可以,基本的集成功能,分析功能,报表功能都没有的早就活不下去了。而智能化各有各的特点,没有真正智能操作,知道下达指令,听起来都比较粗浅,的确可以帮助做一些人脑的事情,但是还是离不开人。这个我也有期待,随着数据中心的自动化程度越来越高,除了数据中心的运维和建设,以及交付给客户的服务感受,跟智能化的运维息息相关。

我再举个小例子,我们在上海的金桥数据中心,跟商汤科技合作进行人脸识别。原来谁来参观就填一个身份证信息,我们提交好了,人来了以后拿着身份证一识别。现在只要一登记,在你提出申请的时候规划好,有些地方刷脸就可以直接走进去,不是门禁卡,在你申请的时候已经通过ID放进去了,你去过哪儿全都跟踪了,甚至你做一些手势和姿势,我们的摄像头随时捕捉你的姿势,可以答应你的简单需求,比如你做一个耶的手势,马上控制台想知道这个客户想做什么。这个有点类似于科幻电影,你的肢体语言随时在环境可以识别出来,并且告诉后台我需要什么服务,可是这块做的非常浅,可能就能识别一个耶,这个耶什么意思呢?好像就是对你的数据进行夸奖。还有一个动作是叫人,只有这两个功能。如果这块做起来的话,那智能化的数据中心,大家可以想像一下,如果你是一个客户,你作为参观者,你是什么感受?你好像到了科幻片的环境,有一个机器大脑在后面跟踪着你所有的行为,这是我非常期望在后面数据中心可以实现的情况。

严瀚:安全和备份的问题,我们主要讲基础设施怎么安全备份。我们看到绝大多数的数据中心安全备份主要通过异地的备份方式实现,金融可能建两地三中心,同城灾备和异地灾备。数据中心目前绝大多数都是两路供电,但是供水只有一路,很多地方存在水厂断电导致数据中心的宕机风险。现在有柴发的保障方案,有供水紧急预案都是需要做的。在过程中,我们很多客户,尤其是云化的客户提出的问题,数据中心南北方很多地方差异很大,为了节能用的技术方案差异很大,尤其在空调系统上,怎么有标准的方案能够使得它的运维体系的所有人员可以得到统一的培训,可以很快速的上手,系统自动的运行,实际就带来很大的挑战。我们现在的产品更趋向于全自动化的运行,把颗粒度变小,全自动化。一个冷机系统可能有成千上万个变量,你做一个集中控制系统很难控,但是如果基于原来传统的风冷空调的架构做,变量只有室内风机、室外风机,压缩机和弗泵和膨胀阀,可能量不大,一台1E的服务器就可以解决机房模块的AI算力需求,可以实现真正的落地。未来在标准化的方案怎么满足不同区域的备份需求,我觉得可能是未来演进的重要方向。

郭逸昕:我觉得杜总说的问题特别好,运维和运营,这两个词其实在英文里面都是一个意思,是同一个词,但是中文带来了不同的解释。维就是维护,营和经营相关。IDC从以前的运维向运营转型阶段。

最早大家喊干数据中心运维,喊的无外乎六个字,安全、稳定、可靠,只要保证这个事,这个数据中心就不担心了。但是到了运营,我们要面对不同的人,他们可能会有不同的要求,比如说IDC客户要的体验包含了把设备放在那块很放心,可以远程看到跟我所放设备相关的一切东西,包括我的系统。对于IDC本身的员工,他们可能注重的是效率,怎么可以更好的去提高工作效率,可以每天做更多的事情。再往后到老板,IDC老板看重的是效益,就是我想要挣更多的钱。它的转变过程其实跟信息化整个发展过程是一样的,我们的感觉是如果想要做这些事情,首先从自动化或者智能化方面划一个坐标轴。横向是说的这个事情紧急不紧急,纵向是重要不重要。咱们会发现有了这个坐标轴就可以知道每天很多的事情是既不紧急又不重要,但是我可能花费了大量的时间。在紧急又重要的事情,可能也花了大量的时间处理,很重要但是不紧急,或者重复度很高,经常发生的事情可以通过工具搞定,比如服务器或者哪个系统宕机了。这个时候搞IT运维可能就是三个步骤,要么重启系统,要么重启服务,重启了一下服务器,总能把80%的问题解决。我觉得在做运维到运营的转型,或者我们面向未来云计算的整个大环境里面,其实就可以根据转型的理念去做一些相应的改变就好了。

吴成斌:关于这个问题,以前我们数据中心都是定义为IT系统、服务器、网络服务的,数据中心建设成什么样主要取决于IT的需求。但是随着数据中心的技术演进,向上影响服务器的状态,比如液冷服务器,整机柜服务器,都是由于数据中心的形态变化主动产生的一些革新,并不是它们自己业务的需求,而是我们底层的技术去影响。慢慢有可能以后数据中心的架构和技术还会影响互联网和云计算的形态,我们出于某种考虑这个数据中心的可用性只有两个9,只有三个9,你的备份要根据我的特点做一些调整。未来可能上层的互联网和IT系统,和IDC可能会有一些互动,相互的影响。这是我的想法。

主持人:谢谢。前面几位嘉宾把我们的话题引到了运维的阶段,我们最后吴总谈到了关键的一点,要承认数据中心不是百分之百可靠,我们看看运维这个阶段。按通常来讲,我们按狭义计算,数据中心运维错误率其中有将近30%是人为故障造成的,如果我们把这个间接的计算上,这个问题没及时发现,发现了没及时解决,去解决的时候又没解决好,全是人为造成的,这些加起来相当于70%的错误都是人为造成的,人也非常重要。像刚开始说的,对于技术来讲,不仅仅是影响一些物质化的东西,技术是否也会影响到IDC人的思维、行为习惯和管理行为?让我们人的管理,人的效率提高。各位嘉宾有没有这方面的感受或者看法?

吴成斌:现在数据中心里面确实出现了很多智能化的手段,这些可以大大降低我们对人力的需求,这也是由于IDC形态的发展而引起的,以前的数据中心可能很小,现在对人力的需求越来越高,这些智能化的手段可以缓解或者解决现运营或者运维阶段的一些问题,包括郭总的公司产品就是来解决我们这个问题的。我觉得这个问题肯定是以后数据中心技术变革一个非常重要的方面,毕竟我们制冷系统还有供配电系统是非常传统的行业,它的变革会相对慢一点,而智能化系统它的技术是新的,需求是新的,一定会引领数据中心技术的变革趋势。

郭逸昕:从运维态势来说,我们可能习惯性分成一线的值班监控,二线的技术专家,然后是管理层。大部分的一线做的7×24小时几班倒,他们是可以去进一步利用,这个利用的方法很简单,就是相信在座的各位如果管IDC都有自己大量的知识库或者以往根据不同设备的维修经验,其实只要在出现这个事件的时候能通知一线人员以往用了哪些操作步骤,多做这么一步,对于他们来说可能就能多干出50%的事情,就不用呼叫二线了,二线的专家可能研究当前的新技术,可以规划制冷和供配电,管理层可以去基于这个去建设新的运维管理体系或者运营体系。我就可以把原有的一线变成1.5线,拿医院来说从分诊台变成社区医院的医生。这个很重要。

严瀚:因为我们公司还有代维的业务,代替客户运维整个数据中心,我们了解了很多东西。刚才讲的规划也是朝这个方向发展,更自动化,更好的运行,核心就是颗粒度和架构问题。如果你的系统架构有单点你就要有专门的人看这个,要不然出现就是致命的问题,比如像冷机、主管和主要的冷却塔。颗粒度的选择非常重要,我们现在小颗粒度的理念,包括间接蒸发冷却也是小颗粒度,一个一千瓦的数据中心可以有10台,甚至20台空调,因为每个系统只有50千瓦,一个一千瓦的空调就有24个系统,这24个系统都是完全独立的,坏一个压力就比较低了。浪涌的模式,这种架构可以保证整体的可靠性,包括对监控远程的支持,可以实现设备的智能化全部远程进行后台的监控,甚至管理远程的开关机,远程调温都是可以实现,需要分级的授权。我们客户可以在家里面用手机直接接受数据中心的故障,如果出现一个小故障,一个颗粒度坏了对于制冷系统的影响只有二十四分之一,这样就高枕无忧。我们杭州有一个具体的金融客户采用了这种架构,原来如果按照正常的运维班底需要三班倒,每班三个人运行3000千瓦的机房,但是换成我们这种方案以后只请了一个人,白天8个小时做巡逻和日常性事物,下班之后靠手机接收,节省了80%的人力。这个给整个数据中心运维带来的革新可能是翻天覆地的变化,所以越来越多的小颗粒度系统,最佳颗粒度一直是我们研究的重要方向,肯定会给运维带来更大的改变。

杜远:刚才听三位领导讲的时候,我心里在琢磨一个问题,技术和人为造成故障的关系,这个问题挺尖锐的,我听着也挺怪的。之前讲到人有30%的错误是由人为造成的,解决这个错误都是通过管理手段,很少通过技术手段。模拟了好几个场景,因为人为造成的问题有两种,一种是故意的,一种是不小心的。故意的没有办法,手里拿着绝缘钳子的东西在里面晃荡,任何手段都是没有作用的,他是蓄意的。但是非蓄意的,不小心造成的情况,什么样的技术手段可以去弥补呢?因为有些工作不是AI可以代替的,现在没有那么高级的机器人可以代替,比如我就是拧一颗螺丝,就是需要一个人,这里的技术含量,我的螺丝刀不一样,我是防脱落的,可能有一点技术含量,但是真的到不了现在所谓的跟新基建相关也好,跟AI相关也好,到不了这个层面,只是简单的机械原理。

我就想到模拟了一个场景,我之前碰到两次数据中心的事故,可以算重大事故。一次是错了一根线,整个环控系统的信号丢了,导致温湿度在总控中心全部清零了,报警铺天盖地,就是弱电工程师拔错了一根线。另外一个工程师拔错了光纤,客户的出局总光纤,然后说网断了,我们说不可能,我们就是断了,拔错了,都是人为造成的。这种情况从管理角度来看很简单,对于强电是强制性要求,对于弱电双岗监督。就是因为操作太随意,这个架子是我管的,我很熟,我认准了一拔错了,眼花了。强电有演练,一步一步拿着对讲机喊,而且双岗执行,这是从人身安全讲。反正我十几年数据中心还没听过谁拉错闸。不随意就是通过管理手段实现,通过技术手段可不可以呢?比如现在智能配线,后端该做哪根线,指示灯在下面显示,是灭掉还是闪烁,人就会判断,有助于人的判断,这算是技术手段的实现。

但是刚才提到的通过技术手段能不能降低人在数据中心运维当中出现错误的几率,我想来想去会有影响,但是有效降低的措施想不到。偶尔一两个案例可以找到,但是通过某种技术极大降低人在数据中心运维当中人犯错的几率,想不到,期待有这种技术产生,可能还要交给AI的大佬完成这个事情。

何含:这确实是个挑战,我觉得刚才杜总讲过,上一个话题你们跟商汤的合作,你去通过人脸识别的技术去管理这个人可以合法,合权限。你划在一个办公室,一个工厂,一个其它的地方没什么太大的区别,它并不是跟你的IDC业务紧密贴合的,我所理解的AI赋能某个行业更多还要跟业务实际场景贴合,如果是刷脸进门,考勤可能每个单位都需要,但是还是相对通用化的非行业属性的场景。

减少人为的失误,其实IDC这个行业我不是太懂,我可以举个例子,刚才您谈到供配电,我两个月之前跟鲁能电力聊,下面有一个鲁网智能做AI这部分。为什么找他们聊呢?因为我们跟国网做的电力巡检项目,因为咱们35千伏、300千伏用巡检机器人把传感器的参数视觉化、可视化,代替人工做巡检的工作。我们觉得电力还挺好玩儿的,因为鲁能比较大,我们找鲁能。他给我一个很惊讶的地方,给我展示了一个PPT,说我们去年的时候跟集团的领导汇报,我们大概去年做了30多种算法,到今年翻倍了,六七十种,他也叫电力的运维。涉及到各种场景,室内的,室外的,山上的,杆上的,天上的,因为它的输配电线路涉及各种各样的场景。他说电力的运维操作在电力行业的规范里面操作规范能够数得出来的大概有500多条,比如我去做个什么维护,我要不要系安全绳?这个安全绳的挂钩规范到什么程度?这个挂钩的高度必须高过肩膀,不能人站在这儿,挂钩在下面。它做了一个算法,说我专门干这个事情。以前电力是你这儿有一个高车,我去有一个人托上去,你身上背着安全绳,路的对面再停一台车,这个车上面装一台摄像机,有远程的督导,我要实时监督你是不是合规,有没有违规操作,会不会有风险,有没有隐患。可能今天有四个工地,这个人同时看着这四个工地的工人干活,现在变成不靠人了,我反正要放一台车,我放一台机器检测五六百种违规操作的可能性。他觉得这里能够有AI解决的大概有60%到70%,可能有三四百种靠算法、数据、训练是现阶段基本有希望可以看到的实际应用,但是现在做出来的只有20%,真正实战应用的更少。但是这个给我的启发还是很大的,你一方面是流程的规范,AI可以辅助你做这些,作为技术手段可以帮助你做流程的规范。因为AI不会有人情的因素,它不会跟你勾搭成奸,不会开后门。另外机器也会变得越来越聪明,但是这个聪明的前提是说我们自己所有的运营和维护,自己首先要有一个规范,你这个规范首先要有,如果你没有500条规范,我很难谈这个场景。如果原来就是粗放式的操作,我很难靠机器,但是如果精细化了,你有规范了,相对来说并不是百分百解决所有问题,但是可以帮助一部分,这个可以做到。从我目前的经验里面可以帮助到一部分。

主持人:谢谢。数据中心在人为的错误问题上,人为管理上确实面临很多现实的问题,现实的发展阶段,意味着我们不可能在现有阶段用所谓的人工智能或者更智能的运维管理替换掉人,解决掉人的问题,但是我们现在也看到在其它行业里面更规范的行业,发展更成熟的行业,它们已经可以通过人工智能的方式或者更智能化的方式改善了一些问题,我们也期望能够让我们的数据中心在做自己的规范化道路上能够应用上这些更新的技术,改善我们的管理行为。

最后,我们还有一个畅想性的话题。我们跳出数据中心的内部闭环,我们看看现在市场上,第一是头部云端用户已经进入到数据中心行列。第二,资本也进入到数据中心,未来我们又出现了一些新的技术演变,5G技术、人工智能和区块链技术。未来数据中心说生存也好,说跟新型云数据中心的关系也好,说未来的模式也好,这方面大家随意,愿意说哪方面都可以,随意说一两句畅想一下。

何含:我一直觉得这种Data的形态,比如说云边端的融合,我们之前的数据汇聚的需求是有一定的历史背景或者有一定的技术背景的,数据需要中心化的汇聚再交换,再下去,当然有传输介质的局限,公共基础设施的投资形态,以前主要靠政府,现在越来越多的因子进来。一个从技术线,今后的数据是泛在的形态还是不需要那么强的中心化,未见得要扔到一个中心再发回来,因为未来的带宽、交换的方式,或者每个小的处理单元的能力变得非常强了,我可能会是一个一万个小的微数据中心替代一个大的,或者原来大的不需要继续长大了,像您说的8000个机柜会变成8万个机柜吗?也没有这个必要性,但是这个区域可能存在8万个机柜,可能80个一组存在1000组。数据的流动可能以后的管道并不一定是先汇聚再分发的形态,它的存在意义是跟着数据走,数据怎么流我就怎么建,怎么跟着它做形态的建设。我是这么想。

杜远:有关畅想的话题可以一句话,也可以聊一天。现在数据中心经过十几年的发展,数据中心毕竟是一个行业,企业做数据中心,企业的第一目标是生存,得赚钱,你才能自己活下去。现在数据中心赚钱无非三种模式,一个是踏踏实实建设好,然后向客户提供服务,收取租金来赚钱利润,赚的很少,已经从卖白粉的利润变成收白菜的利润,真的很低。第二种模式拿到一些数据中心的批文建设数据中心,快建设好或者建设好了,或者拉一点客户进来以后打个包卖了,挣个快钱,可能资金三年之内增长了30%,你能弄来5个亿,卖掉8个亿。第三种资本运作上市,大家发现后两种赚钱的模式都挺过瘾的,不像第一种。但是后两种跟数据中心本身没什么关系,数据中心只是一样商品,一个筹码,人家只关心这个东西多少钱进,多少钱出,或者上市能募来多少钱,数据中心有没有利润不重要。不管是专心的去做自己独立提供电力基础设施的数据中心,还是做云化的云数据中心,还是做现在随着5G新基建的开展做边缘化的分布式数据中心,不管从技术角度,还是从市场效益来讲,我认为走哪一种都可以,做到极致才是数据中心的生存之道。什么都想沾一点,中庸之道一定会死掉。这是我要表达的。

严瀚:刚才杜总谈到钱的问题,我们聊一下怎么赚钱。数据中心现在看到刚才讲的上架率对于它的周期回报是有影响的,上架率越高,盈利率越高,国际领先的包括国际出租的公司上架率越高,盈利越高。排名第一的公司在美国出租率高达30%以上,国内比较好的可以达到75%以上。如果说负载率上的比较慢的话,对于你的投资回报就有很大影响。整个技术架构怎么样适应变化的负载率成长速度是很大的问题,也是我们关注的重点。

第二个问题关于数据中心的安全问题,我们一直有很多思考,前几年我们制冷方案有很多新方案,像新风制冷,前几年所有的论坛和场合都在讲新风冷却,因为雅虎搞了新风的中心,大家都一窝蜂的上。因为空气中的质量问题会造成服务器的物理故障,一定要用化学的过滤方式,你的PUE下来了,但是你加进去很多化学过滤器的成本和每年增长的成本,整个成本接近于空调系统的投资,国内做新风的大型数据中心基本已经没有了。现在间接蒸发冷却上的特别快,我们公司在欧洲和美国也做过很多,其实有很多问题,间接蒸发冷却没有那么好,我们没有大规模验证它的制冷方案这种PUE多少的前提下就大规模使用,未来存在很多风险,包括蒸发效率随着水质的问题逐年下降这是肯定的,未来随着负载率上升会成为逆反的趋势,最终的运行成本会越来越高,最终的风险谁来买单?这都是很大的隐患。我们对于解决方案安全的角度应该更谨慎,更审慎一些,这是从客户安全角度给广大朋友的建议。

郭逸昕:针对王总提的问题,前几天看了一本书叫《光变》,里面讲的内容,我截取其中一个小故事,90年代初期的时候,中国开始有大量的合资企业,特别是和日本,和欧美,它们怎么合资?日本那边出专家,出设备,中国人出地,大部分的钱被日本赚了。现在IDC的发展方向也是这样,可以自己创建自己的生态体系,自己搞IDC,可能下面会有跟我合作过装修的,会有一些设备厂家,我可以作为一个生态链的顶端,去建立自己的生态,并且把自己在IT运维、运营方面的理念和成果打包变成所谓的产品和服务,这是在运维转运营提到的产品化和服务化的概念。我既建立了自己的生态体系,又建立了自己的服务产品,可以给未来的客户和市场带来什么?它可以把整个维护,包括设计优化和改造交给一个人,不仅仅这些人只管自己的数据中心,他们可以成为专家组,可以作为咨询顾问,可以作为很多不同的角色参与到其它数据中心的规划决策,这也是未来数据中心或者我的团队想发展更好的模式。

吴成斌:我觉得未来数据中心的基础设施架构一定会更加的丰富多彩,而且大家也会更加关注数据中心的基础设施架构,比如说以前数据中心大多是千篇一律,大家怎么划分数据中心的类型呢?一般按照规模,小型数据中心、中型数据中心,大型、超大型数据中心,或者互联网数据中心、通信数据中心,现在出现了更多的数据中心类别,是按照它的技术架构来划分的,比如液冷数据中心,模块化数据中心,边缘计算数据中心,绿色数据中心,以后数据中心领域可会出现以不同的技术形态而命名的数据中心,数据中心领域也会更加丰富多彩。这是我的想法。

主持人:谢谢各位嘉宾给我们带来的精彩观点分享。

我们的圆桌论坛至此结束,谢谢五位嘉宾。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2020-12-11 10:07:00
数据中心节能 官方解读来了,中国首个权威液冷数据中心白皮书象限图发布
研究团队走访、调研了中科曙光、华为、阿里巴巴等中国液冷数据中心主流厂商,描摹出中国液冷数据中心的全貌,并与部委直属科研单位的液冷专家进行了交叉验证,在此基础上形 <详情>
2020-12-11 10:03:46
整机柜服务器 数据中心的“金属积木”是如何做出来的
12月8日-10日,第十五届中国IDC产业年度大典(IDCC2020)在北京国家会议中心盛大开幕。大会以“重新定义IDC”为主题,数千名数据中心从业者参与本次大会,共同探讨数据中心 <详情>
2020-12-11 09:48:00
国内资讯 第五届“攻城狮”数据中心运维大赛圆满结束!
12月8日,第五届“攻城狮”数据中心运维大赛决赛在北京国家会议中心落下帷幕。 <详情>
2020-12-11 09:40:07
国内资讯 重新定义IDC 第十五届中国IDC产业年度大典在京举行
中国IDC产业年度大典是国内数据中心行业规模最大、最具影响力的行业盛会。每年的大典都紧贴产业发展方向,准确把握产业发展趋势,为未来一段时期内数据中心产业的发展指明 <详情>