9月27日,由云计算发展与政策论坛、数据中心联盟指导,开放数据中心委员会主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院、英特尔承办的“2016ODCC开放数据中心峰会”在京隆重召开。在下午“行业数据中心技术发展及最佳实践”的分论坛上阿里巴巴数据中心基础架构高级专家刘水旺发表了题为“阿里巴巴张北数据中心设计”的演讲。以下为演讲全文:

刘水旺

 

阿里巴巴数据中心基础架构高级专家 刘水旺

大家下午好。我是阿里巴巴的刘水旺,今天我们演讲的主题是千岛湖数据中心,千岛湖数据中心其实是去年开始营业的,然后整个数据中心其实对外讲了很多次。张北数据中心今天讲应该是最热乎的时候,9月12日刚刚开始了开幕式,在张北,就是北京市、河北省和阿里巴巴一起来组织这次开幕式。我今天就在这边给大家分享一下张北数据中心的设计。首先先请大家看一段视频。

下面我来给大家介绍。我先简单介绍一下,张北数据中心其实在阿里,我介绍主要分四块,第一块就是选址,阿里从整个决策,为什么要选在张北,第二就是园区和建筑的设计。在国内大多数数据中心大多数可能是单桩的建筑,园区的,特别是互联网这样大型园区的其实并不太多,这块我可以讲一下我们在做这块的经验教训。第三块是供电系统的设计,第四块是制冷系统的设计。首先是选址,当初我们为什么选择在张北。这边有一张图,上面可以看到张北和北京之间的距离,张北离北京大概225公里,那为什么选择这个地方,为什么是张北,而不是内蒙,或者是鄂尔多斯、呼伦贝尔等等,我大概总结了一下,从我们这边实际来说,我们认为有六个因素。业务需求,政府导向,人力资源,还有就是自然环境,运营商资源和电力资源。当然我正是从互联网角度来看,我们认为要从这六个要素上来看才是最完整的。

国内目前很多选址更多注重的是自然环境,还有一些电力的资源等等,或者还有运营商资源。我认为其实最关键的应该是业务的需求。对于数据中心来说,最重要的是你要有需求,那么这样你才有存在的价值。刚才看到张北因为离北京225公里,阿里在这边定位它是整个服务于我们北方区域,特别是环渤海经济区。这边占中国GDP的20%,北京又是我们政治文化中心,这样就是说我们在张北落地数据中心,大多数在线业务需求都是能满足的,当然离线肯定没有问题。有了业务需求之后,接下来我认为很重要的一点是政府的导向,选在张北的话,政府的导向也非常关键。

张北不仅仅说是张北县,或者张家口市,河北省,其实当时这个导向还包括北京市,因为北京市它在做出溢出的产业,它是调整到河北省,河北省当时它就规划到了张家口市张北县,张北县其实是有非常多的资源,包括它的电力资源,这样子正是因为有北京市和河北省的合作,所以说我们这个数据中心才能实现两地政府的协调,包括最终的用户,北京用户可以直接在这边落地。包括我们数据中心其实最终运营商的介入,并不是经过河北,是接到北京市的。

还有一个很关键的人力资源。刚才我还在和运维的同事,包括百度的同事聊到人力资源。大家很多做数据中心,现在包括比如说某一些到了像鄂尔多斯,甚至于到宁夏,到更偏远的地方,到新疆,其实人力资源非常关键,我们现在已经发现,在一些偏远的地方,我们有一些数据中心,其实人力资源非常紧缺,特别是数据中心来说,高端的人力资源。相当于来说普通的工程师,当地来培养还是可以的,但是对于高端的服务的工程师,其实是非常缺的。当然不仅仅是数据中心,本身大家可能认为,数据中心就那几十个工程师,就OK了,但实际上数据中心要维持它的高可靠性、高效率,它包括大型的基建设备,应用等等的,这样其实说整个服务都要跟得上,像我们这边,刚才早上看到的像硬盘、服务器、网络设备,像我们用到的制冷供电的设备,其实都需要厂家整个配套建立起来,要有丰富人力资源,没有人力资源,其实对一个比较成功的数据中心其实是非常困难的。

再到后面就是电力资源、自然环境和运营商资源,这三块是常见的,经常能看到。在张北这边,自然环境刚才视频里讲到,就是我们空气质量非常好,全年平均温度只有3度不到,另外一个就是电力资源,张北它有丰富的风能和太阳能,但是当地是有大量的弃风弃光的现象存在,风电和光发电是不能上网的,受到包括电网、包括能源部门的限制,所以我们进到当地,希望能消纳当地被抛弃的一些清洁能源。运营商资源刚才也讲到,我们是拉动北京,但是对于一般的地方,包括现在在做一些大的园区,其实运营商资源都是非常紧张的,因为做互联网来说,对于传输,对于带宽要求非常高,运营商的资源一般是需要接在全国几大节点上面,包括现在在做的,我了解到的像贵州的即时传输的资源都还没能完全解决。

讲完选址之后,我大概讲一下张北的建筑和园区的设计。首先是园区,阿里在张北第一期有两个园区,都是两百亩,图上看到一个是我们的一号园区,叫庙滩数据中心,第二个叫综合园区,两个园区看似不一样,但实际上在功能布局上是大同小异的,其实在阿里之前做数据中心,其实都是单桩的,我们没有做过园区,那我们真正到这张白纸拿给我的时候,其实我当时就有点手足无措,后来我们分析了一下,包括一般的工业民用园区的话,包括人流物流,但是对于数据中心来说的话,其实有些关键的,像能源的流向、信息流向,然后冷源的流向,空气流动等等的。我们后来也是参考了一些国外的大型园区,像苹果和谷歌做的一些园区,我们自己也把这些要素逐一罗列,包括市政的东西,其实总结出来,在两边是我们的数据中心的楼,中间是园,边上是辅助楼,当然靠最外侧是发电机组。所以其实两个园区看似有一点差异,但实际上在功能布局上都是属于这样的原则的。

我们继续往下。建筑的设计,建筑这块其实,阿里目前在做的园区建筑,我们都是采用的钢结构,当初采用钢结构,其实我们最开始的想法其实非常简单,因为我们希望在一年里面能把数据中心建成,我们决策整个是2016年的2月份开始决策,准备要这个地方,开始做的话,当时按照计划我们在2017年的4月份要提供能装服务器的条件,当时去看其实还是一片荒地,什么东西都没有,我们就开始来做这个建设,当时张北和其他地方还是有区别,我们以往在南方来做,其实有很大区别,它一年的话,就是10月份以后基本上是进入冬季,很难做室外工程,当时我们排下来的话,只能采用钢结构的形式。后来我们发现到冬季比我们想像得要困难得多,当地到冬季的时候很多建材都不能买了,一个很小的螺丝都买不到。我们用钢结构的形式来做了这两个建筑。周期的话其实两边做都是五六月份开始做,基本上到八九月份全部完工,建筑结构全部做好,当然不包括里面装修,装修的时间其实是比较长。

整个建筑一层我们是考虑两边一样的,一层全部是机电,二层是数据中心,二层在里面看是没有柱子,是大开间,我完全可以把二层的五千平米做成一个大开间,没有柱子,当时是这样考虑的,这样其实是有利于数据中心里面的布局、走线,包括我们的分区。最开始的时候考虑到做钢结构是为了工期,但最后做下来成本比普通的要便宜一些,做完之后我反过来算了一下,其实现在中国的成本里面,通过钢结构做的话,成本要比做钢混还要便宜,周期更短,资金成本也要少。去年正好碰到整个钢材的价格下跌,所以我们这块的收益还是不小的。

现在现场也差不多,就是我们设计初的效果图。建筑之后的话就是平面布局,平面布局我们是整个一楼全部是机电,二楼数据中心模块,模块布局就是上面这个平面图,每个模块是一模一样大,当然我们其中一个人做了八个模块,另外一个做了四个模块,我们都采用的是水的消防,跟国外的形式比较像,这样子的话就是说,实际上我们对于消防的空间,其实是没有限制的。

上下采用一一对应的方式,我们每个模块可以单独来建设,每一个小的模块可以单独建设,从它电到制冷到机架完全都是独立的,没有关系,所以我们可以分析到每个单元。下面是供电系统的设计,供电系统设计这块,10千伏的配电,我们在张北这边是采用了最传统的一种方式,就是说,我们对于双路的定义,要不就是来自于不同的变电站,要不就是可以是一个高等级的变电站,有的地方110千伏本身的半径就有好几十公里,你到外面引入,它必须至少有两台变压器,我们认为我们后端是有变动电源的,整个回路一定是独立的双回路来供电。发电机这块,我们发电机其实配得比较足,大家看到的这边,我们在阿里园区里面,我们发电机会配了有八台主用的,但是我们发电机基本上已经接近了连续功率。

我们考虑的话主要就是说,考虑市电的容量尽量用足,因为现在数据中心,普遍市电的利用率都比较低,很多装满了之后,其实市电一般用到了百分之四五十,我指的是单路上面的,不算双路,双路可能二三十,所以阿里考虑就是我们尽量把时间利用率来提高,我们有一定的系数在里面。因为我们考虑备用电源的容量会大很多,可靠很多。对于整个数据中心里面的,结构上的话就是说时间上我们用的是单母线分段,发电机是两段母线投入,低压的话这块就是说,低压,也是并行单母线分段,二变压器,我们是大量采用了(听不清)直流,240伏直流和功率的方式,阿里的理念上是这样子,就是说我们的理念是240伏直流保证可靠供电,所以240伏直流,就是两台变压器都会出现到我的240伏直流上面来,240伏直流是两个变压器的供电都会到这个回路上来,任何一边出问题,240伏直流一直是有电的,那另外一路我们是用来节能促效的,那就是说任何时候我的240直流是不会出现断电的。

我们现在在用法的话是,在末端我们服务器这块,我们是采用了可变负载的阻积电源,我们通过强负载做一个最大功率的跟踪,我们让市电通电回路尽量承担多的负载,让整个系统的供电效率会更高,我们希望这样子能做到大概99%的样子。

制冷系统的供电设计,其实包括了冷机,包括冷泵、电频机,然后末端终机,还有像我们的一些自控,像DBC,电动阀门的执行器这些东西,全部阿里的设计里面都是双回路,避免有单点故障点,任何一个疑似故障的话,因为制冷设备大量采用N+1的备用,当然极个别的话地方是2N,N+1这块我们是保证任何一个电源的故障,最多只会影响到N+1的1,但是任何时候不会影响到第二台,不会影响到整个的系统,是这样子的。

所以说包括像我们的变频器,包括我们末端的空调风基地,我们都是用双电源供电的,而且因为我们工业密度相对高一些,供热时间相对短,对于我们的二次泵,对于我们的空调,包括末端我们的风扇墙,全部都采用了UPS和市电相互切换的方式,平时在市电侧,当然在断电的时候,或者重启的时候,我们都是用不间断电源来保证它,避免机房过热。

另外一个我们也考虑,清洁能源这块。我们在张北的风能太阳能会比较丰富,当然,我们在考虑直接把光伏电站的电,直接接到数据中心,这是我们现在正在做的,我们会把光伏电站直接接到数据中心,我们会研究一种新的方式,优先使用光伏电站的电。当然在光伏电站电多的时候,不足的时候我们用市电来补充。

下面是制冷系统的设计。制冷系统的话,我们整个设计理念,包括水冷系统和风能系统,水系统的话就是说,我们用了N+1的冷机,是整个稳定系统可靠性,就是在意外的情况下,或者保证我整个数据中心的制冷最基本的条件,在这个之外的话,其实大多数用到的就是刚才说到的,用冷机,大多数时候其实用的是上面一个,因为供水流温度非常高,因为我们的供水温度已经超过了17度。当然末端送风温度没有那么高,我们现在做的可能接近30度。正因为水的温度比较高,空气的温度比较高,所以它对于服务器的耐受能力,就是我中间,从我服务器平时的温度,到我过热之间的温度会比较少,所以我们考虑的就是用蓄冷的方式,出现意外的情况下,以前数据中心二十二三度,我出现意外的时候我会考虑,到三十度基本上才会做宕机,我现在用了蓄冷,我用了大量的风机WPS之后,我可能不会出现这样的中断,我平时用到30度,没有意外的发生,这样子,那我们有两个开始的蓄冷化。

然后下面是宕换,大多数我们用的是冷却水和冷冻水直接换热,而不用开压缩机。制冷系统我们是典型的二次泵的系统,冷却塔和冷机是一一对应的,冷冻侧是大家做成一个环路,再输送出去,然后用N+1二次冷冻水泵输送到末端。刚才大家也看到,阿里在张北这边也做到过用新风。这边的话我们其实做过接近一年的测试,整个的话我们的新风的空气质量,我们抓了三个测点,整个也去拿到德国去测试,最终的结果基本上质量在G1到G2,可能比美国,或者比欧洲要差一些,但是跟国内,我现在碰到的地方来比的话,应该都要比这些地方好。而且张北空气质量不仅仅是空气质量要好,而且它是属于比较干的地方,干冷,然后它的适用温度还可以。夏季的时候,有的时候温度高,但它干,所以我们考虑用新风,旁边的图上就是说,下面一张图上是我们的送风风口,上面一张是排风,旁边的那一张是我们的风扇墙,因为我们这边没有用紧密空调,我们用的是风扇墙的形式来做整个制冷。

在这边的话我们做得全部是热通道的密封,水平慢送风。当初做这个的目的,热通道和冷通道差异不会特别大,当初我们做热通道,最关键的一个是考虑整机架的运输,整机架因为很重,早上大家看到天蝎的那个,有一点几吨,地板压过去一遍,基本上都会松掉,所以我们当时考虑热通道,没有地板的形式。实际现在的情况的话,我认为这种条件其实还是不错的,对比冷通道,对比大型数据中心,还是对比大家做热通道密封,如果是比较小的,分租数据中心,我不建议这样做,因为这样做对于后面的一些风格,因为热通道比较容易分割,但冷通道一般没法分割,所以大型数据中心技术能力比较强,这种方式还是不错的,包括后面的运维等等的。

最后再来看一下自控系统的设计。这边两张图,一张是我们自控系统的系统图,另外一边就是我们现场运行图上的截图。自控系统这块,我想讲的就是说,其实这块国内现在,应该说大多数数据中心都做的会比较差,因为自控系统的话,要么是做的不够自动,需要很多人干预,要么是经常性的故障,我们这几年遇到故障其实非常非常多,而且有一些就是觉得,让人听了之后觉得很无奈的。

那我建议这块有两方面内容,第一个就是说要做的话,逻辑的正确性非常关键,自控系统的逻辑,控制逻辑一定是要控制工程师,按照制冷的工程师的思路来做这个事情,这样子才能保证整个系统动作的合理性和安全性,这块它直接会影响到,逻辑的正确影响到一方面是安全,另外一方面是能效,所以逻辑一定要正确。

逻辑正确的前提下,第二个就是自控系统的配置。我左边的这张图,它的配置我们这张全部是DTC,我们对于自控系统里面的容灾能力,对于关键的部位一定是采用热备的方式,对于一些能容忍得了2+1的,我是采用1对1的方式,然后中间的连线我们也避免了,现在国内大量采用的手把手的方式,因为这个方式一旦出现问题,整个全部出现故障,我们也是放射性的接线方式。这样子阿里在用了这几年,其实这种结构我们已经总结了丰富的经验,这块可以带来,对于整个制冷系统的稳定性带来非常大的平台。我的介绍就到这儿,谢谢大家。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-05-19 12:01:44
数据中心节能 比PUE更全面 数据中心能耗新标准:ASHRAE 90.4
ASHRAE90.4p标准明确提出“建立数据中心的能源效率的最低要求:设计、施工和运行维护计划,并利用现场或非现场可再生能源”。范围包括a)新的数据中心或其部分和其系统;b <详情>
2017-05-19 11:58:00
国内资讯 2019年中国IDC市场将达到1900亿元
中国IDC圈最新发布的《2016-2017中国IDC产业发展研究报告》显示;未来三年,中国IDC市场规模将持续增长,预计到2019年,市场规模将接近1900亿元;移动互联网、视频、网络游 <详情>
2017-05-19 11:39:00
云资讯 先于AWS晚于IBM 微软将在非洲开设数据中心
微软宣布在非洲建立首批(2个)数据中心,据悉,亚马逊AWS、Google和在非洲大陆没有任何数据中心;IBM去年在南非约翰内斯堡建立了数据中心,是首个在非洲设立数据中心的云 <详情>
2017-05-19 10:04:00
云资讯 人工智能时代:云计算将掀起新的技术浪潮
在中国云计算技术大会CCTC上,CSDN网站创始人蒋涛表示,人工智能时代的云计算将掀起新的技术浪潮。 <详情>
2017-05-18 16:29:55
国内资讯 河北省内最大的数据中心落户保定
今天恰逢“5.17世界电信和信息社会日”,迎合今年世界电信和信息社会日“发展大数据,扩大影响力(Big Data for Big Impact)”的主题,河北省内目前最大的数据中心——中 <详情>