首页 新闻 技术 数据中心 云计算 大数据 互联网 研究报告 机房地图 IDC探营 企业名录 IDC大会 资讯大全 专题 专栏 图片

当前位置: 首页 > 新闻资讯 > 国内资讯

XDC+江苏恒云太 曹晓华:高可靠性数据中心建设实践分享

2016-12-28 14:34  中国IDC圈  

核心提示: 会上,XDC+江苏恒云太信息科技有限公司副总经理 曹晓华出席IDC服务大会并为当天的数据中心设施与运营分论坛做《高可靠性数据中心建设实践分享》主题演讲。

中国IDC圈12月28日报道,12月20-22日,第十一届中国IDC产业年度大典(IDCC2016)在北京国家会议中心隆重召开。本次大会由中国信息通信研究院、云计算发展与政策论坛、数据中心联盟指导,中国IDC产业年度大典组委会主办,中国IDC圈承办,并受到诸多媒体的大力支持。

中国IDC产业年度大典作为国内云计算和数据中心领域规模最大、最具影响力的标志性盛会,之前已成功举办过十届,在本届大会无论是规格还是规模都"更上一层楼",引来现场人员爆满,影响力全面覆盖数据中心、互联网、云计算、大数据等多个领域。

会上,XDC+江苏恒云太信息科技有限公司副总经理 曹晓华出席IDC服务大会并为当天的数据中心设施与运营分论坛做《高可靠性数据中心建设实践分享》主题演讲。

曹晓华1

XDC+江苏恒云太信息科技有限公司副总经理 曹晓华

以下是演讲实录:

刚才听了张炳华和王海峰总从业态的分析和全生命周期管理的情况,我们目前的数据中心还在建设的收尾阶段,可能我会说的更具体一点,怎么从建设的阶段去做一个高可靠的数据中心。

首先大概介绍一下我们自己,我们目前在江苏省的无锡跟盐城建设了三个数据中心,总机建设规模达到三万多个机架,盐城投建了2100个机架,在无锡第一期投建了1300个机架,以及5125个机架。未来我们也将布局全球,在全球建设40多个数据中心。

数据中心的可靠性,从我们的理解来说分几块,第一种,物理可靠性;第二个,电力可靠性;第三个,暖通可靠性;第四个,控制可靠性。我们这个楼从用途来决定建筑,从模型上面可以看到,数据中心的模块位于楼的四个角落,我们从结构设计上来说,就考虑数据中心的情况,从机房模块,通过结构的处理,把机房模块处理成了全无柱的结构,形成12米×5米的全无柱的空间。这样的话,会带来一个风险,抗震设防会有一些挑战,我们在这个地方,完全设计了一个简易机构,通过剪力墙的布局承载了建筑的剪力结构。

因为我们是做商业数据中心,我们在整个人流、物流的组织上面来说,会规划的更仔细。我们将我们自己的物流、人流进行了完完全全的分离,人进到数据中心走的路径跟物走到数据中心走的路径完全不重复,保证了整体的运营安全。

第二,我们在物理结构上保障了所有的传输路径,从进入的电缆开始到管道,全路径的物理隔离,在任何一个点都找不到交错点,而且用混凝土现浇的墙做的隔离。

第三,在物理可靠性上面来说,做到了全方位的防入侵,从交通流的组织上面做到全面的防入侵。在整个楼的外部墙体结构全部做了防爆墙。

第四,整体的人员进到我们园区开始,我们对全路径的事件进行全面的监控,这个监控数据进入我们的分析系统。分析系统是我们自己开发的,会分析到每一个人进的路径,是否应该进到这个路径,而且这个会跟我们的报警系统进行联动,会提前预知到进到数据中心的这个人对整个数据中心安全是否有风险。所以说从物理可靠性来说,通过这四点保障数据中心的物理可靠性的建设。

我跟大家分享一个比较特殊的小设计,所有靠机房外侧的墙,柱子是600×600的柱子,两个柱子之间,一般情况都是砌墙的,但是我们改变了这样的设计,外侧的墙起了200厚,中间留了200个中空,靠进机房这侧又起了200墙的,第一个,提高了数据中心的安全性,靠外侧的墙不会漏水;第二,它具有很好的保暖性。

第二,电力可靠性。跟王海峰总定制数据中心不同,我们更偏商业性一点,我们数据中心的电力设计,大家看上去有一点古怪,在10KV母线上面,我们设置了两个母联开关,凡是红色跟凡是蓝色的,都在不同的房间内,为了保障全部的可维护性,所以说我们把每次都设置了母联开关,保证了任何一段维护都不会影响到其他的任一段,来保障整体的安全可靠性。

一般数据中心在柴发方面,一般会才N+1或者N+2的方式,我们做了2N的柴发,两段母线可以供,保障更高的可靠性。我们没有用到高压直流的技术,我们用的更传统的2N UPS,在整个系统架构来说,我们的架构设计的比较简单,我们每一组冷通道是两组独立的2N UPS代载的。

数据中心到后期最大的压力是在于运维,产品本身在售后方面来说,在一线城市都得不到非常好的售后支持。我们把整体的 UPS架构做的非常简单,整个数据中心只有一种UPS,在这个时候,任何一台UPS出现故障,自己有备件支撑自己的业务连续性,解决厂商售后滞后性的问题。另外,我们为每一组机房模块,都设立了独立的2N UPS,这个设计也是为了保障电力设施的可靠性。

第三个,暖通可靠性。第一个,从无柱的空间来说,我们之前在数据中心项目中间,都遇到了局部热点的问题,特别是遇到一些柱子,遇到墙体结构的时候会出现这样的情况,我们为了保障暖通的可靠性,将空间全部设计成无柱的,全部降板一米,保障每个物流和人流的组织通道是平的,气流组织也是最稳定的气流组织。从末端开始,我们也做了保障,从设计上面来说,采用了2N结构空调,包括它的可靠性。从管路的设计来说,也是保障了单侧都是一个环网的结构做设计。冷冻站方面,数据中心的设计方面,设计了四冷冻站的结构,我们整个楼分成ABCD四个模块,A模块里面有四台冷机,是2N的配置,而且是通过物理隔离的2N配置,但是我们通过蓄冷观测的旁通,我们可以实现A模块的数据中心和跟C模块数据中心进行冷冻站旁通的共用。另外,当C或者A在前期低负载的时候,整体的系统,运行效率会更高。

在冷冻站出来之后,在二次环网上面,将ABCD四个冷冻站进行环状的连接,任意一个单体冷冻站可以给到楼群任意一个末端进行供水,来保障业务连续性。基于这样的情况下面,整个楼可以有一半的冷冻站,ABCD有任何一个冷冻站完全故障,可以通过另外一个冷冻站进行供水,这样就带来一个问题,它的控制就变得异常复杂。所以说我们在这个系统中间,我们也是引入了全新的控制系统,这个系统很少在数据中心用,一般情况数据中心的控制系统更多会用DDC和PLC的控制,我们引入了DCS的控制系统,我们把冷机的控制跟冷泵的控制采用了独立控制系统,有足够的时间去维护我的系统。

另外两个方面,大家在数据中心会比较忽略的问题,第一个是补水,大家在这个方面,不太会去关注这点。数据中心的补水往往出现问题之后,带来的灾难性后果断电带来的后果是一样的。在系统之间,从河水进行补取水,经过自己的过滤系统形成补水系统,但是这个补水系统平时只承担50%的负载,会有另外的补水系统保障它的水侧的连续性,而且我的补水系统出的水质能够达到饮用级的标准,来包括我的业务连续性。第二方面,给排水系统,大家看数据中心很少会看排水管在哪里。整个数据中心来说,现在冷冻水的系统,当冷冻水的管路出现故障的时候,是否能够及时的将水排掉,或者说我是否及时阻止这个水向外流,不让水影响IT侧的东西,这个才是一个很关键的点。第一个,我们在整个管路的全路径做了漏水检测,这个漏水检测也进了XDC的控制系统,将出现漏水点的时候,DCS会报警。第二个,排水系统,任意一个机房模块,都设置了多环路冗余的排水系统,保障水出来之后,能够迅速的排放掉,以免影响掉IT资产。

第四个,控制可靠性。控制的系统第一个是采集系统,原来的采集系统都会偏简单一点,如果说是485,通过485的网管进了系统。我们的做法也做的比较傻一点。我们将我们所有的配电柜上的数据,所有暖通的数据,全部进了PLC,有些时候一台配电柜对应了一个个PLC。上层OPC协议的数据,我们做的特殊一点,我们采用了全系统的高频度的采集,我们对温湿度,对电流、电压这些关键的数据,甚至达到每秒采集的措施。所有的采集数据是分区块、单独成系统,单独做记录的,通过互联网的思维,将数据不再存储在原来工业的数据库里,而是存在在MYsql的数据里面做实现。我们在配电侧是全冗余的控制器,在网络侧改变了自控的网络结构,我们用了更特殊的网络设备,取代了原来的工业交换机,承载了这些自控设备的网络能力。

我们也在配电侧使用的全部都是IC61850的标准,在成本方面,可能会花的相对大一点,我们在二次泵上面采用了独立的冗余器,二次泵是整个系统中间最关键的点,我们不会放弃它的可靠性。我们为整体的数据中心做了一个独立的分析系统,在整体的配电系统上面的仪表,我们的脱口,到暖通设备上面的传感器,我们对整个配电系统进行了全系统的波形捕捉,所有的仪表都支持到每一周波63次采集的频次,将这个数据永久存储起来,把这些系统进HadOOP,我们数据中心目前还没有正式的投运,在后期会将这个数据拿出来跟大家分享。

第四,决策系统。它是基于在整个系统之上的,把在建的系统都拉进了决策系统,决策系统会基于多个数据中心的数据分析进行决策,把数据中心的所有的控制都在了无锡的控制中心,所以实现了全远程的控制。当地的运营团队往往存在问题,我们把所有的控制权交给在无锡的运维中心,对整体系统进行控制,这样的话来保障人员的可靠性。

大家之前做数据中心的时候,往往是这样子的,一个数据中心经自控的软件成型了,我可能以后永远不会升级它,除了漏洞方面的处理我们做一些改动一些,我们可能永远不会升级它的软件。我们做的比较特殊一点,我们将所有的系统做到了标准化,每个数据中心软件是恒定的,每当总控制系统进行软件升级的时候,对它控制逻辑进行升级的时候,我会同步升级到每一个数据中心的控制系统,来保障整体系统的软件版本始终是统一的,这样的话,以便我去发挥最好的控制效果。

第五,网络可靠性。第一个,第一天的时候,李总对外宣布,自己的数据中心互联,我们永远提供免费的互联。这个免费的互联怎么去实现的呢?在每个数据中心都去架设波分设备,而且做到了80×100G波分的技术。另外,我们通过一些高性能的路由设备,实现了全网带宽超过1.5TB的能力。通过国内运营商,以及国际运营商,我们会建立超过20个TB带宽,来保障整体的电路可靠性。

通过这些措施,可能这些方法跟目前行业内有一些区别,但是我们也希望通过这些理念引入,包括我们对外的宣传,而且我们会对外承诺,我们所有的控制逻辑我们会进行开源,来宣导我们对数据中心可靠性的理念。



为了解各类群体对《中国IDC圈网站》的服务需求,为网站改版提供参考,我们特开展此次调查活动。您的宝贵意见将有助于中国IDC圈的建设与发展。为了答谢用户,我们将从参与调查的用户中抽出10名幸运网友,赠送50元话费充值卡。 参与调查》》

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
 

推荐专题 更多

热点图集 更多