中国IDC圈1月12日,2015年1月7-9日,第九届中国IDC产业年度大典(IDCC2014)(http://www.idcquan.com/Special/idcc2014/live/)在北京国家会议中心隆重举行。本次大会由工信部通信发展司、中国信息通信研究院(工信部电信研究院)、云计算发展与政策论坛、数据中心联盟指导,中国IDC产业年度大典组委会主办,中国IDC圈承办。作为国内IDC行业规模最大、最具权威性和影响力的盛会,此次大会再创辉煌,三天的会议参会人数超过8000人次。

从1月7日到9日连续三天,工信部相关领导、IDC企业、电信运营商、互联网企业、设备厂商等各行业精英齐聚一堂,以"大变革 新生态"为主题煮酒论道。其中开放数据中心委员会决策委员、百度技术经理张家军应邀出席本次大会并发表了题为"天蝎整机柜服务器的实践与探索"的演讲。

22

开放数据中心委员会决策委员、百度技术经理张家军

以下为张家军演讲实录:

张家军:大家上午好,非常感谢在座的所有嘉宾和专家,我是百度的张家军,非常荣幸最后一位发言,希望有机会跟大家共同分享ODCC天蝎项目在过去发展过程中的实践和我们面向未来存在的一些潜在的机会我们怎么去看。前面的几位专家都从数据中心的角度看了各自的看法,我们也是希望站在一个用户的角度跟大家一起分享一下,站在百度的角度来讲,或者站到ODCC联盟的角度,我们怎么样看待数据中心和IDC领域下一步发展的状况。

这是我们尝试用一个比较有意思的场景去拍的,是我们机柜场景的状况。

天蝎整机柜最新的版本2.0在百度进行大规模的部署,当然天蝎整机柜在阿里和腾讯也有大规模的部署。

首先介绍一下开放数据中心委员会,2014年8月29号正式成立,主要负责天蝎服务器的项目。在天蝎服务器发展了3年之后,有越来越多的社会团体加入进来,也得到了政府相关部门的关注和重视,所以在天蝎研究院牵头下我们把各自工作的范畴重新做了整合,希望在这个大的框架下做更多的事情,能够更好的造福整个行业。开放数据中心委员会的成立主要想做这几件事情:

第一,希望打造活跃、高效、具有国际竞争力的数据中心生态圈和开放平台。数据中心也好,IT领域的发展也好,基本上是以美国为马首是瞻,在这么多年里中国整体上还是比较落后,我们希望借助更多国内自身的用户和产业共同的结合和碰撞,能够在这个领域创造出更多好的核心的东西出来。

第二,推动形成服务器、数据中心等相关行业的统一的行业规范。这也是一个很大的差异。在更多思潮迸发的时代大家都有很多的idea,但是也给产业的供应商带来很大的困惑,标准的差异化太大了,每一家都有自己的想法,每个客户都有自己的想法,不利于大规模的推广,因为每一个差异化都会付出额外的成本。

第三,希望通过开放、协作、创新、共赢的方式促进行业的合作、产业的创新和新技术应用。这是我们的三个愿景,也是希望跟在座的各位,跟产业的同仁一起推动中国的数据中心IT产业巨大的变革,这是一个非常好的时机。

基于这三个大的愿景我们在整个构架方面,希望把服务器、数据中心、网络设备,跟软件基础架构相关的更多的东西整合到一个数据中心来,过程中我们要逐步实现三个循环。第一是微循环,实现设备和模块之间的互动,能够使得IT设备和数据中心的设备之间有所结合,相互之间形成一个循环。第二是在更大的层面,数据中心自身的层面,数据中心与数据中心中间能够形成一个互动。第三是打通软件与硬件,能够实现上层的应用对下面资源的需求,从需求的角度来讲所有的应用对后端的需求是一种资源化的,所以我们怎么样构建一个好的资源化的平台,实现更大的循环。

再看ODCC的发展,其实ODCC之前3年的历程是天蝎项目3年的历程。我们在2011年的11月份成立了天蝎项目,当时为什么叫天蝎项目?因为那个时间点,从大家碰头到最终实现正好是这个是点,所以就叫做天蝎项目。将来如果有更多的项目,我们可以把12个星座都做完。

天蝎刚开始是百度、腾讯、阿里巴巴三家出于完全自发的方式去协作的,因为我们在过去若干年的发展过程当中遇到了很多问题,一个偶然的机会在一起开会,相关的负责人讨论,发现我们有相当大的部分70%、80%碰到的挑战是非常相似的,就觉得我们是不是可以共同坐下来一起做一些事情。我也有幸成为当时共同创建天蝎项目的负责人之一,我们能 不能把中国自己的组织推起来,首先影响国内的行业和产业,将来有机会可以影响到全球更多的行业用户。

将近3年的发展,我们经历了发布天蝎1.0、2.0的版本,启动了模块化数据中心,到去年我们有一个非常重大的里程碑的事件就是跟电信研究院一起把天蝎项目合并到ODCC里面来。之前的天蝎整个定义是Server相关的,我们有了服务器设备、网络设备,还有数据中心和测试,这样形成一个完整的环节。

主要的决策有决策委员会,中间有顾问和办公室,下设若干个工作组,每个工作组有自己的专注点。这些都还在演进的过程当中,到现在只有4个多月的时间,但也开展了很多卓有成效的工作,包括推动了天蝎的机柜,往行业标准化的方向去发展。

在决策委员会里目前主要的成员是阿里、百度、腾讯、中国电信、中国移动、工信部电信研究院六位成员,有一位顾问会员英特尔。希望未来我们能够有更多的会员,这是决策会员的名单,截止到目前应该有30-50家相关的其他的普通会员,组织在日趋壮大。

第二,整机柜服务器实践。

什么是天蝎整机柜服务器,跟大家做一个简单的介绍。为什么让大家看视频,是为了让大家更好的理解我们为什么要做整机柜,它在数据中心里面是怎么被应用的。整机柜目前还是更适合于大规模海量部署的场景,相对也比较多的需求,如果一次买个10台、8台的服务器,或者一年迈个百八十台服务器,也没有自己特定的数据中心场景或者租用一般运营商的机架柜,在这种场景里不太适合。

在整机柜整体的设计上三个核心理念,一是模块化设计,二是一体化交付,三是自动化管理。刚才给大家看视频就是为了给大家展示我们设计的东西我们都做到了,实际部署的时候效果非常好。

先说一下一体化交付,给大家看的是我们现场部署视频的交付,效率非常高,我们现在可以做到一天交付一万台服务器,大概200多个柜。因为超大数据中心快速的增长对交付能力的需求使得我们必须具备这种能力,而且它的整个交付的效率是非常高的,当天早上200个柜子送过来,到晚上就能够到业务手里。2014年我们可以实现比24个小时多一点,一旦机器加电完之后后面就是自动化流程。如果业务需要的话,一天可以拿到一万台服务器。

在模块化的设计中,核心理念是集中供电、集中散热、集中管理,这些模块相对独立、相对耦合,共同构成一个系统为整个机柜来服务。

最后是自动化的管理,以机柜为管理单元。华为的张总提到自动化运维的必要性,包括提出机柜或者模块将成为数据中心的一个最小单元,这也是我们之间一致的构想。因为面对一万台服务器一台一台去管理的挑战实在太大了,我们能够以机柜为单元进行管理,整个资产的准确性就会非常高。因为机柜有GPS系统,能够精确到每一个机柜在它的生命周期里在什么位置,所有的数据都能够被精确的捕捉到。同时能够让供电、散热集中管理。

经历了过去3年多的发展,天蝎本身还是取得了非常长足的进步。从成立到第一次发布1.0的机柜用了差不多5个月的时间,1.0规模部署用了差不多一年的时间,2.0概念提出再到2.0大规模部署也基本上用了一年的时间。

我们用2年时间从200个机柜的部署到2000个机柜的部署。为什么要跟大家分享这个,因为刚开始在行业里很多人认为百度、阿里、腾讯能够走到一起是根本不靠谱的,某种程度上是有竞争的,在更多的对行业和产业有利的情景里面,我们会先把业务放在一边,希望将数据中心相关的部分进行协作,我们做到了。2000多个机柜相当于小10万台服务器,这才是刚刚开始,今年和明年会有更大规模的部署,会有更多的机器全部切换到我们的设计里面来。

2.0整机柜,我们通过自己技术能力的储备实现快速迭代、快速储备。做过硬件设计的朋友会知道,一般跟服务器、交换机相关的产品,从设计到产品化通常需要18个月左右的时间。对于像这样的迭代整个的复杂度会更高,所以理论上需要更长的时间,但是我们做到一年的时间实现快速的迭代,等到2.0阶段的时候我们实现了标准化的设计,把整个的框架,供电、散热、管理全部标准化了以后,后面的更新只是做内部的节点和网络的时候,能够实现更快的迭代,比如6个月、9个月就可以做产品的迭代,快速的实现为业务服务。

天蝎从1.0到2.0,到现在我们在规划3.0,过程中我们在设计理念和主要的工作上也做了变更,一路走来虽然我们不断的在摸索,但是思路还是清晰的。首先设计理念上是做大的结构的创新,之前参考了类似刀片的设计,但实际上这种做法一开始是没有的,遇到很多的挑战,比如散热和安全性的问题。实际证明整个的结构设计给我们带来了巨大的收益,第一是节能非常的明显,大家一直在讲数据中心要节能,电的消耗是数据中心最大的成本,我们初步估计能节约20%以上的成本,最差也能节约10%,最好的能够到30%.

交付效率能够达到10万台服务器。1.0的设计还是多元化比较多,虽然大思路是统一的,未来为了能够让它迅速的产业化、标准化,更大规模的推向市场,能够让更多用户无障碍的去用,怎么把2.0迅速的做起来,有望在2015年发布行业标准。

到3.0我们做什么,这是今天我要跟大家重点探讨的。

这个概念在之前IBM的专家和华为的专家演讲里面都有讲到,要经历一些变化,数据中心最后会变成一个资源池。我们的理解从天蝎的角度来讲,3.0做完了结构的统一,即一个解耦合的过程,把电源、风扇、管理等部分解耦合之后开始动内部,内部就是主办加上CPU、网络。最先从存储开始,实现所有资源的池化,一个数据中心所有的资源真的是资源化的。我们今天在IDC里面看到的是设备不是资源,但业务真正需要的东西不是设备。从需求的资源到今天的设备之间我们想到用解耦合的方式,逐步的实现把存储、计算、IO分开来,让它们在更大的范围内重新整合。一方面能够实现资源的最大化,大家通常是利用虚拟化来解决资源利用率低的问题,这样还不够,我们要更高效更动态的进行扩展。当我缺某个资源的时候,大家可能都有这样的体会,CPU不够了,你不能单纯的扩展,只能多加几台服务器,但是多加几台服务器带来的内存和硬盘是你不需要支付的成本,比如当你今天存储是瓶颈的时候,单机的存储不能扩容的时候你又得买服务器。最终的目标就是实现软件定义整机柜。

另外一个概念叫做混合可配的机柜。当我们做到能够很好的解耦合,能被资源化的时候,混合可配置机柜就是资源化的东西,可以根本客户的需求动态的进行调整。在分级的存储里面我可以根据我对数据的分析分级的要求加入一些Flash相关的模块。机器学习和深度学习领域混合计算发挥了很大的作用,我们也会面临挑战,如果想在服务器上随便加一个CPU卡,功耗就会是很大的问题,插槽的扩展空间也是很大的问题,我们的设计很好的解决这个问题。

混合可配置机柜的构想是通过资源池化的角度来动态重构机柜,最终实现整个数据中心就是一个机柜。通过混合可配置好处是能够实现IT设备资源化的交付,匹配弹性数据中心的需求,业务能够动态的调配资源,机柜就会变成一个最基本的IT的单元。

硬件的优化很快会做到极致,因为整个生产制造业成本已经压缩到极致,没有利润了。这是一个。另外数据中心的能效和PUE的提供方面也会做到极致,这边的空间非常小了。反过来看,对资源的利用方面还有很大的空间可以做。IBM和华为的两个专家刚才也提到了数据中心往模块化的方向去走,更好的跟IT设备端进行结合。我们认为这是一个解耦合与重新耦合的过程,把散热、供电、管理结合起来,这些东西依然只是为Server服务的,数据中心依然有自己的一套散热、供电、管理,它们能不能结合起来,把解耦合的东西再和数据中心重新耦合,模块化的设计已经做到了其中的一部分。之一就是我们可以共享一些硬件的基础架构,这样不需要额外的结构上的复杂性和成本的增加。

二是在散热上,我们通过柜顶式的散热方案,传统的散热是需要空调末端的,所谓空调末端就是很大的风机去送风,现在可以直接实现固定,当然这里面需要很好的气流的规划和密闭性的处理,今天我们的实践已经可以做到。

三是在供电上是不是可以做到更好的极致。刚才华为的专家提出来供电PUE从1.8到1.5,极致到什么程度,不管你研究什么样的UPS,高压直流也好,无非是市电直供,把中间所有的环节都干掉,这是我们认为的最理想的状况。今天我们能够做到的是单路,另外需要一路提供必要的冗余性和容错性,我们是不是也可以做到双路市电直供,我们也可以考虑。做数据中心的同事跟我说你们这么搞下去,把中间的环节全部干掉我们就没有饭吃了。

四是动态控制。全自然风冷却,不需要额外的制冷,这种情况下无疑它是最高效的。国外Google和Facebook能够做到PUE1.0了,这也是另外一个极致。过程中有两个问题需要解决,一是无论你用什么方式去供电,业务的变化是动态的,对电的消耗其实是不可预测的。今天是IT管自己的,数据中心也是管自己的,基本上今天是可以确保不会出事,但是也要考虑万一出了事怎么办。更好的模型是让所有后端的供电资源的供给是以IT设备需求来驱动的,这边业务发生新的变化的时候,会直接反映资源利用率的提升,比如CPU从20%涨到70%了,这个时候就要迅速的联动。从数据采集、传输把所有端的数据,通过一个合理的策略跟传统的基础设施进行联动,控制它,这样就能实现一个闭环的控制,把这一部分的运维的效率再进一步的提升。

做纯自然风冷却,我们不得不选择把数据中心建在人口非常密集的地区,即便是北京,到夏天的时候也会有一段时间持续高温能到35度或38度,这个时候做纯自然风的冷却怎么办,你的所有服务器能不能经受得住。雾霾对数据中心来说有两样是非常要命的,一个是粉尘和颗粒,二是腐蚀性的气体,碳硫氧化物,它们会对设备造成严重的腐蚀,带来的损失是巨大的,要把这个事情搞定就必须解决这两个问题,我们做了相应的研究,也有一些实践在往前推。我们认为在未来的发展过程当中,这是另外一个融合的方向。

这是我主要想跟大家分享的内容,用30分钟的时间分享了天蝎整机柜发展的历程,我们做了哪些工作。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-07-19 09:16:00
云资讯 微软和百度就阿波罗计划达成合作,Azure将为中国以外的市场提供智能云服务
在7月5日召开的百度AI开发者大会上,百度集团总裁兼COO陆奇宣称“Apollo是最强的自动驾驶生态”,背后的PPT上共有50家Apollo合作伙伴初始合作伙伴在列,其中就包括微软。今 <详情>
2017-07-18 09:52:00
大数据资讯 AI全新布局下的百度投资策略Facebook化,是不谋而合?还是野心勃勃?
一个细节之外的东西——所展露出的百度的全盘布局及投资的新变化。 <详情>
2017-07-17 16:48:04
大数据资讯 《福布斯》:百度欲借AI增加收入来源
据美国《福布斯》杂志7月16日报道,百度由核心业务转向人工智能,不仅为前沿研究,更重要的是带来新收入增长点。 <详情>
2017-07-14 10:33:00
市场情报 陆奇内部讲话:All in AI的百度需要什么样的工程师
陆奇:如果把深度学习真的要想彻底,必须把物理重学一遍,把生物学看一遍,再把进化论再看一遍。因为深度学习跟这些东西完全相关,自己肯定想不清楚,要彻底想清楚,必须学 <详情>
2017-07-14 09:25:07
空调制冷 高温桑拿天如何让机房降温
随着数据中心容量的增加、规模的扩大以及新型设备与技术的引入,服务器和关键设备时刻受到以温度过高为代表的各种威胁,数据中心运行与维护的难度也在加大。夏天来了,数据 <详情>
【2018可信云】华为张敬松:政务云安全探索与实践
2018-08-15 17:14:40
【2018可信云大会】云智慧王理想:保险行业数字化转型解析
2018-08-15 17:09:53
【2018可信云大会】信通院郭雪:面向保险行业的云计算系列标准解读
2018-08-15 17:05:47
【2018可信云】浩云网络刘里奥:智慧城市下数据中心的建设
2018-08-15 17:04:08
【2018可信云大会】信通院董恩然:可信金融云服务(银行类)评估方法和最佳实践介绍
2018-08-15 17:00:48
【2018可信云】信通院张琳琳:可信政务云标准和评估实践的介绍
2018-08-15 16:57:55
【2018可信云大会】华为cloudBU李德刚:如何构建专属合规的金融可信云
2018-08-15 16:56:07
【2018可信云大会】联通云数据霍玉嵩:联通金融双录云的探索和实践
2018-08-15 16:51:55
【2018可信云大会】兴业数金侯大鹏:兴业数金如何坚守可信金融云标准
2018-08-15 16:47:46
【2018可信云】中国电信滕勇隽:互联网+政务服务新模式
2018-08-15 16:47:42
工信部发18批CDN、云服务牌照,获得云服务牌照企业总数达228家
2018-08-15 16:44:03
【2018可信云】数梦工场马燕哲:互联网+政务—新型互联网的筑梦之旅
2018-08-15 16:34:07
【2018可信云大会】高效运维社区萧田国:Xops 时代,运维的破与立
2018-08-15 16:34:06
【2018可信云大会】信通院牛晓玲:运维标准权威解读
2018-08-15 16:29:34
【2018可信云大会】希云cSphere张春源:国内保险行业容器云总结报告
2018-08-15 16:24:48