10月17日,2018年开放数据峰会(Open Data Center Summit 2018,下文简称ODCC)新技术与测试分论坛在北京国际会议中心举办。ODCC关注数据中心产业的各个方面,从国家政策和法规,到地方制度和项目,从产业全局发展到具体技术落地,从尖端热点技术到传统行业推广,从国内到国际,从宏观到微观,全力推动中国数据中心产业发展。

梅方义

以下是腾讯高级规划师梅方义为大家带来的精彩演讲《腾讯数据中心液冷之路》。

各位来宾大家下午好!很高兴ODCC的这次峰会快接近尾声了,还有这么多小伙伴在这里听我们的分享,看来大家对液冷这个技术还是持有相当的热情。

我是来自腾讯公司IDC数据中心规划组的梅方义,感谢ODCC给我们这次机会跟大家做一个技术分享。液冷这个技术大家都知道,不是一个新的技术,把这个技术应用到对可靠性安全性特别高的数据中心行业,这个还是有许多问题需要解决,这也是我们不断跟各位合作伙伴交流的原因。今天演讲的题目腾讯数据中心液冷之路,前面各位听到百度、阿里在液冷方面做了很多研究,腾讯在这方面也有一些自己的看法,我们有自己的实验室,同时搭建了液冷的demo。

数据中心的冷却之道,这是一个数据中心配套基础设施很重要的话题,这个问题伴随着计算机的诞生就已经产生。芯片在运作的过程中散热,这些年数据中心的冷却我们想了很多办法,力争花更少的成本去解决这个问题,也取得很多成效。从最开始水冷冷源加精密空调末端,直接新风、间接自然冷,包括采取很多措施,冷热通道密封、微模块、地板下送风、天花顶回风、列空间调、顶置空调。今天又面临新的问题,这几天ODCC峰会关键词,AI人工智能包括GPU,包括服务器功率密度不断急剧上升,这是我们面临的第一个问题。第二,能源和空间的成本越来越高,包括在北上广深这几个城市对电力容量的限制越来越严格。我们只能通过措施把PUE更多下降,才能把更宝贵的电力资源应用到IT侧。

面临这两个问题的时候,我们下一步的数据中心该往哪个方向变革?这个是我们需要思考的问题。通过大家的热情可以看出来,液冷是很不错的方向。

今天分享的内容有四个部分,什么是液冷技术、腾讯在这方面做了哪些工作、解决了哪些问题、未来的展望。我有个项目管理组的同事说项目需要技术支撑,你老是没时间,忙什么去了,我说我去搞液冷去了,他说,我知道,把服务器浸泡到水里。这个是大家眼中的液冷,没有接触到大数据中心应用的话都会停留在这个阶段。我说不是的,我搞的是板冷,他说我知道,就是大学时候搞的水冷机箱。这个认知并不是错误的,只能说是片面的。液冷分为以下几种,浸没式、冷板式、喷淋式,浸没式把服务器浸泡到矿物油或者氟化液,通过蒸发吸热。冷板式一种用冷却液流经贴合CPU,带走热量,通过热管转接一下。第三种喷淋式,维护更便利,散热效率高。这几种形式各有优缺点。

我对三种模式做了一个比较感性的比较,腾讯目前做的也是冷板式,只能拿到这一方面的数据。散热效率浸没式和喷淋式更高一点,浸没式相对来说更高一点。相对浸没式、冷板式技术成熟度还有监测成本、维护成本方面冷板式好一点,更接近于数据中心目前的架构。前面唐总讲了液冷的好处,这里简单做了一下总结,数据中心比较关注节能,液冷也是相对来说比风冷节约很多,用的是冷板,基于冷板式液冷介绍。供水温度达到35度,甚至40度,实现全年的自然冷,数据中心在制冷方面的能耗可以降到很低的程度。更稳定,降低芯片的运行温度,消除局部热点,器件稳定性提高。更高效,芯片运行温度降低,运行效率提高。这两项取决于CPU的运行温度,还有更低的噪音,我们进到一个机房特别运营商以前的交换机房,那个噪声对人的生理还是有影响的。还有更少的空间,40千瓦的负载,是四个10千瓦,还是一个40千瓦机柜,在空间成本很高的情况下肯定更愿意40千瓦一个机柜。所以液冷可以应对更高密度机柜,节约使用空间。

从上面的分析来说,液冷技术的应用场景还是很光明的,能够为我们带来很多实实在在的收益。机柜密度越来越高,机房占据越来越低,减少制冷方面的空间占用。

腾讯在液冷方面做了一些什么?首先在研究液冷的初期就要选择一种液冷模式,前面介绍有浸没式、冷板式、喷淋式,在浸没式的情况下一些通用的器件难以满足长期稳定工作,它的稳定性寿命受到影响。第二,很多大型的数据中心通过现有的厂房改造而来,那些厂房并不是说数据中心设计的,它的承重条件有限,如果用浸没式的话,大机柜里面盛满液体,对机柜要求很高。。另外浸没式维护难度比较大,通过吊臂吊起来,相对冷板式或者通用的服务器来说,维护的工作量还是会大很多。在这里不是否认浸没式液冷,后期我们开展这方面的工作,作为用户来讲选择更适合于我们的形式才是最重要的。鉴于以上情况所以我们选择冷板式开始液冷之路,

数据中心对安全性、可靠性要求特别高,作为腾讯来讲也是百万台服务器以上的互联网公司,我们新技术的应用都是非常谨慎的,每项新技术都会经历这几个步骤,实验室测试、小批量试用、大规模使用、持续优化。我们在实验室做过一个机柜的样机,经过测试,稳定性,采集的数据也非常不错。所以开始搭建液冷微模块,现在液冷微模块正在稳定试运行当中。

传统微模块大家很熟悉了,腾讯已经部署了将近2000套。微模块的好处大家很清楚,工业化、标准化、自动化、基建和IT分离、更快部署、灵活变化、更安全、更低成本,微模块遇到液冷会产生什么样的火花?一个传统微模块,加上液冷水分配单元,服务器水分配单元,加上二次循环管路就可以支持液冷服务器了。同时微模块是液冷很重要的载体之一,方便大家去部署。

这是搭建小批量部署的环境,上面有两个微模块,左侧是液冷模块,右侧是传统的风棱模块,通过同一个房间搭两个模块,来通过对比来探索液冷到底有多大的收益。

这是液冷液冷模块组成,包括一次循环管路、CDU系统、二次循环管路、机柜等。,二次管路和机柜的接口,其实整体的组成比较简单,但是在搭建微模块的过程中还是碰到很多问题。

这部分是我们碰到了哪些问题,解决了哪些问题,还有哪些问题需要大家共同推动。首先我们在搭微模块的时候考虑我们的新技术应用肯定要契合业务需求,这样才有应用场景。数据中心的特点需要安全稳定、节能环保、智能、便捷、灵活、成本、周期、可控,对液冷模块的设计也做了以下设置,包括双回路的供水,二次侧环管供液阀门隔离,让它的故障影响变小。包括快速接头可靠性、单机柜液隔离、液冷CDU水泵双备份、运行参数及漏液监测实时告警,服务器运行温度监测、二次侧管路采用不锈钢材质等。

节能环保,二次侧高温供液,可实现全年自然冷,二次侧采用成熟循环工质,满足环保要求。

智能、便捷、灵活,二次侧供液温度可设,可自动调节。水泵,液冷CDU双备份自动故障切换及断电自启动,机柜漏液监测,自动识别并进行隔离,快速接头,即插即用。液冷CDU及二次侧循环组件国产定制,二次管路现场测量,工厂预制,现场组装,质量工期可控。所以液冷需要推广就必须契合数据中心的特点和需求,解决在应用中碰到的问题。

回顾一下液冷模块搭建的步骤,首先选择了液冷的方式,部署环境建设,运行测试,数据采集。从目前的数据来看,液冷的PUE接近1.1,该机房整体的PUE1.35,空间还是蛮大的。

下面看一下这次过程中碰到的问题,包括CPU功能的设置、流程的设置、快速接头规格、二次循环管路设置、运行参数测量,包括机柜背部空间利用,这个也是很重要的。碰到这么多问题,我们也一一解决,但是有很多问题需要整个行业去推动解决,比如标准化的建立,液冷CDU运行工况的设定,还有mannifold服务器接口标准,这次用华为的服务器,下次浪潮的服务器过来,接口插不上去,设备更换的费用就很大。我们把液冷的微模块搭出来之后要上服务器了,大家说要不要测试?传统机房拿假负载进行测试,但是没有液冷假负载啊,我们拿液冷服务器去跑,以后大规模部署的情况下,业务部门不允许你这样做,这个也是大家需要思考的问题。

未来会怎么样?液冷的应用场景还是很好的,作为腾讯有MDC模块、TBlock、MiniTBlock,我们想在这方面发展液冷技术,把液冷跟现有的产品化结合,实现液冷技术在大型数据中心的应用。另外,我们在一些低价不是很贵的地方规划大平层的数据中心,它的承重条件比较好,未来也会找一些条件做浸没式液冷的实验工作。

最后正如本次会议的主题,聚合行业力量共建产业生态,液冷之路的未来需要行业各位一起努力,欢迎大家会后找我交流,包括液冷冷板都可以。

我的演讲内容就是这些,谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-09-01 09:52:00
Iaas 阿里巴巴亮相ODCC2017 三大策略应对基础设施建设挑战
近日,2017开放数据中心峰会(ODCC)在北京国际会议中心隆重召开,阿里巴巴基础设施事业群总经理周明发表主题演讲,与参会者分享了阿里巴巴在基础设施领域里面所面临的机遇 <详情>
2017-08-25 13:28:00
国内资讯 王月:数据中心产业发展现状及趋势
我们国家IDC主要情况,和全球市场相比,我国市场快速增长,增速远高于全球,近几年保持40%增速,预计未来几年也会保持较快增长,增速估计维持在35%以上。2016年整体规模达 <详情>
2017-08-25 13:22:00
国内资讯 王峰:运营商网络机房DC化改造探讨
从运营商角度来讲,国内国外运营商都差不多,都有自己的私有云、公有云,我们有IT云,还有我们的天翼云,中间承载的是电信云,电信云和传统IT云需求是差不多的,也要做虚拟 <详情>
2017-08-25 11:48:00
国内资讯 颜小云:数据中心基础设施故障管理佳实践
数据中心的可靠性是最重要的,因此我们在建设初期就会做很多的2N或者N+1的架构,到了运维的时候,我们也会做数据中心的巡检和维保等等,除了这些以为数据中心的监控系统可 <详情>
2017-08-25 11:46:00
国内资讯 徐忠宇:边缘数据中心发展展望
边缘数据中心层级划分和承载业务情况,在地市一级从传输专业来看,它的传输网的架构,最顶层是地市级的DC机楼,像移动在发达地区一般会有四五个,普通地区可能会有一到三个 <详情>