中国IDC圈12月28日报道,12月20-22日,第十一届中国IDC产业年度大典(IDCC2016)在北京国家会议中心隆重召开。本次大会由中国信息通信研究院、云计算发展与政策论坛、数据中心联盟指导,中国IDC产业年度大典组委会主办,中国IDC圈承办,并受到诸多媒体的大力支持。

中国IDC产业年度大典作为国内云计算和数据中心领域规模大、具影响力的标志性盛会,之前已成功举办过十届,在本届大会无论是规格还是规模都"更上一层楼",引来现场人员爆满,影响力全面覆盖数据中心、互联网、云计算、大数据等多个领域。

会上,阿里巴巴集团技术保障IDC高级专家 刘水旺 出席IDC服务大会并为当天的数据中心设施与运营分论坛做《互联网数据中心架构和设计》主题演讲。

刘水旺-(2)

阿里巴巴集团技术保障IDC高级专家 刘水旺

以下是演讲实录:

我理解的互联网数据中心,主要从这几方面来看,这些年来,规模非常非常大,这个是非常明显的。我六年多以前到阿里的时候,当时我们在建设一个数据中心,建好之后考虑怎么把它分掉,怎么用。现在一年,即使是十倍的规模,我们不担心这个事情。第二个,变化快,互联网这块变化非常快,大家可能都能感受到。第三,高带宽、高功率、高成本、高可靠性,我后面会分别来讲,这部分我要讲是我们现在碰到的问题,以及我自己的看法。

刚才说到规模,这些年来,特别是移动互联网兴起之后,互联网普及非常快,最多的一个IP应用八亿多,像微信,这也推动了互联网数据中心规模和数量都在增加。第二个,云计算的推广,包括像国内的阿里云,像微软的AZURE。第三个,互联网的“二八效应”,大家叫得上的名字都是大规模的,小的互联网公司占的规模比较小。从我们的经验和国外的大型互联网公司,做到很大的情况下,一般情况考虑是规模效应,规模到一定程度,成本才能比较低。另外,也考虑灾难的影响等等。现在普遍认可单个业务三到五万台是比较合适的,这个是不停在变化的,可能在两三年以前,大家可能不是这么看,可能觉得一两万台更合适,现在普遍认为是三万到五万台,如果按现在的机器来看,一般是三千到五千瓦机架。像这样规模的数据中心也越来越多,比如谷歌、亚马逊有数十个,我估计他们应该有超过两百万台服务器。我们能叫得上名字的这些互联网公司,经常体现在新闻中间的都是几个到几十个中间规模的数据中心。

量多了之后对我们有很大的挑战,单点的规模很大,怎么样来选?占地越来越大,符合条件的地点非常非常少,占用资源很多,成本是需要的重要方面。但是在我看来,做互联网,国外大家看到很多做绿色,甚至用新能源,并不是说互联网公司多么钱,愿意去烧,实际你到后面会发现,其实互联网速度这么快,我们从几百个机架到几千个、几万个,这是短短几年间发生的事情,因为用户的需求量增加非常快,你的也就是需求是无限的,一直在增加。这个情况下,以后你占用的资源会非常多。

在2012年,全球数据中心占的电能耗是1%,但是现在各种各样的数据表明,有人说是2%,有人说是3%,我相信这些一直在增加。如果按这种发展,虽然说现在基数是1%到2%。如果增速非常快的话,隔几年耗电可能翻倍的增长。如果我们不减少资源的占用,对于以后可持续发展是非常不利的。

现在国内,北京已经在关注能耗,像数据中心涉及的PUE一定要求1.5以下才能批准。在国内其他城市,更多的是靠自律。数据中心PUE低一些,或者水耗少一些,可以作为一个宣传的东西,但并不是说一个考核的指标,我认为这样是不合理的。包括我们自己来做,其实我们认为尽可能少的占用资源,其实是非常非常重要的。

选址之后,在设计、运营,设计方面,大规模的数据中心建设,像张北,设计的合理性其实非常关键,方案的选择、精细化等等,任何一个不恰当的设计都会付出巨大的代价。像王海峰总讲到的,我们用到的新风和冷冻水系统,我们认为在张北这个地方其实是比较合适的,因为当地水的资源是比较紧张的。像运营也一样,刚才两位也讲到过,规模非常大之后,靠人也不行,资源比较丰富的地方招不到人。像自动化、大数据、人工智能等等,这块是我们现在正在研究的,因为规模大了之后,你不这样做,其实已经是没法实现了。

关于变化,可能在外部的人来看,不会理解互联网的变化会有多快。在现在这个时代,互联网更新、业务更新和自己的更新非常快,我们的产品甚至一个公司,忽然间爆发是非常正常的,往往我们一个业务从提出到需求,经常是一两个月把所有的东西做好,我们用传统的方式来响应是做不到的。

从数据中心思路考虑两方面,第一个,把数据中心分成长、中、短三个周期来看,在建筑和市电这块资源,长中期可能是前期建设。中周期,我们会根据需求每年建设一次,大概占30%的投资,我们最后会按照需求来做。

关于末端服务器加速,张炳华也讲到过整机架,对于规模应用,整机架是非常好的东西,AWS号称平均一天交付3000台服务器,如果平均是3000,突发应对的话应该在1000到15000之间,我认为整机架是比较大的发展方向。具体的形式,是国内做的天蝎还是其他的方式,可以后面再看。

高可靠的要求。刚才张炳华有讲到,他们做高可靠的数据中心 。对我们来说,互联网并不是要求不高,在很多人来看,互联网要求并没有那么高。特别是以前我们跟运营商合作的时候,很多运营商同事跟我说,你这个要求跟我们通信网要求差远了,我们的核心网络怎么怎么样,你这点要求,还给你做个N+1,这完全不合理的。

其实现在来看,互联网往往与一个省、地、市的通信网相比要求不会低,往往一点点的事故造成的影响都很大,比如像支付宝的527,AWS的雷击、微信断网等等,其实影响面都非常非常大。从技术这块来看,主要有三块要求,供电、制冷、网络,也包括张炳华讲安全。供电这块,我举两个例子,一个是我们在走分布式的,把故障面减少,一台服务器或者一个基站堆,故障面小,不仅仅利于故障面减少,另外一方面,可以让我们做到按需交付。另外一个是发电机,我认为发电机是需要配置,对发电机的要求会越来越高,真正保证可靠性。外部的资源是不可控的,发电机是一定需要的。

制冷这块,有两个例子,一个是不间断制冷,就是蓄冷技术。另外,对云控制系统,大家以前更关注基础设施的建筑,不太关注控制。其实对于控制的冗余,特别是蓄冷控制,包括不间断制冷这块控制器的冗余,要求是非常高的,我们设计空间也充分考虑这块。再一个是网络这块,网络包括内部和外部,内部基本上对于接入侧做到单上联、多上联,外部是多路由的形式。现在国内很多大型数据中心也都这样来做,多个数据中心,数据中心直接不做出口,直接做高速互联。外部连接做两个,一个总的输出互为备用,多个点相互连接的方式。

关于服务器功率这块,IDC功率密度一直都是限制。IDC我们使用很多年,IDC年限度比较长,要考虑多代硬件设备的兼容。大家往往有个误区,做IDC,从用户这端来,高功率的密度硬件比低密度的硬件省钱省电。

国内很纠结的,看过很多数据中心,大规模的建设都是16A、20A,这种更多考虑可能是建设的时候,利润率更高一点,或者是针对中小用户。真正从用户端来看,从互联网大规模来看,性价比一定是非常低的,我们现在选择高功率密度的机器一定是更划算的。

国内大型互联网数据中心功率普遍是在5到10KW左右,我的判断,未来是到10到15KW。国外基本上是10到20KW,但是15以下的偏多,基本上还都是空气冷为主。对于高功率密度这块,冷板、浸没液冷等国内互联网都在尝试,但是没有产业化和标准,每家各做各的,都想一家独大。下一代的CPU、GPU等空气冷已经不划算,我觉得液冷肯定是合适的,但是产业化和标准其实是瓶颈。12V的主板电压对于高功率也成为了限制。这块的挑战都在于产业链和标准,而不是在于他的产品不好。

高速带宽需求,互联网应该是应用流量最多的。现在基本上是云计算、大数据,对于流量的要求非常高。数据中心内部的流量,特别是云计算这块要做虚拟化、动态迁移,这块流量非常大。短时间里,像百兆、千兆、10G、25G都开始应用,但是流量还在持续增加,接下来会怎么样?我觉得东西向流量肯定会更大,南北向是有瓶颈的,即使是淘宝双十一,我估计也就是一千个G左右。

网络架构演进很快,关键是互联的材料,像模块的材料,它的限制成本会非常高,这块对我们的挑战也很大。像互联网、云计算、驱动的高带宽的需求,运营商这块瓶颈已经显现出来的,国外互联网巨头纷纷开启自建传输和光缆,很可能成为未来趋势,他们已经建海底光缆了,像谷歌和亚马逊,包括澳洲、欧洲和亚洲之间的互联。

高成本。王海峰总很专业,我这个写的不一定对。狭义的数据中心,建设成本一般是2—4万/KW—IT。广义的数据中心,全寿命周期成本是其10倍以上。降低消耗最有效的方式是利用率提升,典型的就是云计算,云计算本来就是一个应用提升,利用率再高一些,本身数据中心很多台服务器,每台单独做业务的服务器利用率很低,我们希望用虚拟化的方式实现统一调度。像大型互联网公司做的,包括离线在线混部、服务器负荷率、机柜负荷率提高。机柜利用率低往往是不划算的,如果是我租个机柜,出租方往往是希望我用的越少越好。像硬件性能的提升,降低PUE,技术优化降冗余,这也是重要的方法之一。我这边要强调的,不要只盯着PUE一个指标,降PUE,通过提升温度或者降数据中心冗余,这种绝对是得不偿失的。像有一些优势地位的数据中心的供应商,往往就是通过这种方式,降低数据中心冗余方式,这样做往往花的代价会更大,互联网往往是不提倡这样的浪费。

关于设计的思考,我想说的是DCAC的概念。有人说数据中心和服务器是一样的,里面包括供电、散热、计算存储,从广义的数据中心来看确实如此,这个也在不断地演进的过程。最早的时候,大的计算机可能是计算、存储,加上网络连接,外部的供电、制冷,现在是每个部件里面都有计算、存储。慢慢发展,以后有没有可能数据中心变成计算是计算,存储是存储,我觉得很有可能。整体上,一方面我们可以借鉴计算机的设计思路来设计数据中心;另外一方面,数据中心设计经验和思想要传递给服务器。在互联网里面,数据中心和服务器是非常紧密的,这两方面联系起来。如果挖掘数据中心设计价值,肯定从数据中心和服务器两方面入手,目前单纯的数据中心或计算机成熟设计挖掘价值都已经非常困难。未来的数据中心设计一定是风火水电、服务器、网络相互联合演变设计的过程。

数据中心其实就是互联网,快速变化的互联网撞上了科技密集的IT业与传统的机电行业,我们做的很多东西不一定是对的。我们在不断地摸索,经常做很多决策,不一定让大家都能够理解得了,但是我们仍然会在不断的纠结中,找到平衡点。沿用阿里的话“梦想还是要有的”。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-07-26 10:28:08
云资讯 阿里巴巴张勇发布股东信:明确消费、云计算和全球化三大战略
过去一个财年,阿里云计算业务继续在中国市场保持领先地位,并实现了阿里云创立 13 年来的首次全年盈利。 <详情>
2018-10-17 14:10:00
国内资讯 现场直播|阿里巴巴高级专家刘水旺:阿里巴巴数据中心创新和实践
数据中心行业还有多长时间可以发展?这个我其实也很有感触,我记得我刚到阿里的时候,当时说数据中心能做两三年差不多,做两三年之后还能再做两三年,结果这样不断循环已经 <详情>