9月27日,由云计算发展与政策论坛、数据中心联盟指导,开放数据中心委员会主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院、英特尔承办的“2016ODCC开放数据中心峰会”在京隆重召开。在下午“数据中心网络”的分论坛上阿里巴巴基础架构事业群网络平台事业部高级专家陆睿发表了题为“开放光模块的意义和挑战”的演讲。以下为演讲全文:

陆睿

阿里巴巴基础架构事业群网络平台事业部高级专家 陆睿

大家好,我是来自阿里巴巴基础架构事业群网络平台事业部的陆睿,今天很高兴分享一下我们最近一年多来在开放光模块上的心得和体会。首先讲一下我们对开放光模块的理解,对开放数据中心一样,我们对开放含义理解有两个,第一个从硬件角度而言,我们期望把光模块变成一个不与系统设备捆绑在一起的独立部件,同时我们也不会局限于某一家或者某几家光模块供应商的方案,我们希望打通互联互通,系统设备跟模块之间的互联互通。另外从软件运维管理上来讲,我们希望光模块有统一的规格,我们在运维特性上面达到一个真正的统一,这是我们的一个理解。

其实对于光模块,我们杨组长讲过ODCC网络一开始可以从开放光模块做起,原因就是光模块在初期是在固定在板子上的形态经过发展可以变成可插拔,技术也有很大区别,特性导致我们很容易从系统设备拆开。我今天分享的标题是开放光模块的意义和挑战,主要想讲我们做开放光模块方案的时候给数据中心客户带来什么好处?带来什么收益?同时做的过程当中会遇到什么样的难题?我们需要建设什么样的能力解决它?在讲开放光模块对于我们意义之前,我想讲一下当前的数据中心的背景,只有了解背景才知道我们在做开放光模块到底能带来什么?首先云计算、互联网业务的推动使得IDC的规模越来越大,基础设施的投资逐年增高。光模块作为一个比较昂贵的部件,自然需要有一个优化的空间,从成本考虑。第二个数据中心对高带宽的需求,我们参加过看到一些专家报告,数据中心带宽需求几乎每三年升级一次,大概三年前我们万兆网络进入数据中心,现在已经开始引入25G的网络平台数据,预计可能到三年以后会评估200G、400G的网络平台。第三个背景就是现在光互连市场的快速变化的态势,快速的光互连市场变化使得数据中心客户需要深入的介入到解决方案来。第四个SDN发展推动白盒交换机应用,到光互连解决方案就落到数据中心客户身上,不能依赖于让交换机厂家提供解决方案。第五个就是低能耗的需求,大家知道在数据中心网络设备的功耗不是大头,主要是服务器,但是光模块的功耗本身也有最低的等级从1.5瓦,到4.5瓦的功耗差别还是很大,从功耗的角度还是有一些优化的空间,怎么样做一些绿色环保的考虑?光模块也是带有一定的意义。

第二个背景就是光互连在数据中心成本的状况,10G、40G平台的光互连成本在数据中心网络成本占比超过了一半。到未来评估的25G、100G可以预计光互连成本比例还会上升。

第三个背景其实在北美很早就有OTT公司评估研究开放光模块,首先facebook在OCP里公开了他们的开放光模块管理的方案。在一家北美OTT公司开始ODM这种更为深度开放的方式。

讲完了背景之后自然讲一下开放光模块带来什么好处,主要有五个好处,第一个很直接,降低成本,第二个就是帮助我们数据中心客户选择一个最适合自己的放互连方案,第三个就是有利于找光模块厂家做定制化的特性,可以有针对性的运维管理,第五个在光互连技术演进当中,在演进过程多种可以选择适合自己的技术,主导产业的发展。

降低成本最早很多数据中心客户做开放光模块的最早的原因,主要实现的就是打破交换机的绑定,实现不同交换机的互联互通,一个是数据中心客户直接向光模块厂家采购光模块,系统厂家、交换机厂家供应链不同,不同交换机采购的光模块成本就不同,如果遇到交换机厂家供应链能力比较强可以拿到比较好的光模块价格,如果讲到白盒供应商带来的都很贵。另外我们消除绑定之后,我们不必为每一家交换机准备库存,可以简化库存管理。第二跟光互连供应商的直接交流,获得更好的服务。另外可以跟光模块供应商建立战略合作的关系,有灵活的商业策略。最后触发光互连产品供应商针对IDC客户的技术,成本革新。

第二个好处可以掌控自己的最优方案,这个图很多人见过,这是比较常见的图,用来评估不同光模块类型在解决不同连接长度的时候的成本优势,不同曲线,蓝色的是光缆单价最贵,每增长一个距离光互连成本上升很快。我们做这个图的时候需要根据自身实际情况绘制这个图做方案,不能根据供应商提供的数据做方案,有可能拿到的不是最佳的方案。第二个假定这个图做得很准确,接下来根据各家情况还有不同,最长连接长度多长,平均连接长度多长,还有管理成本考量。比如你的最长长度已经到了500米,意味着一定要用CWDM4,如果连接长度集中在100米,你做方案的时候应该向100米以下连接长度做专门的优化,应该选择SR4,至于少量从100米甚至到两公里长度,建议从管理角度考虑只需要选一个CWDM4。

定制化,光模块本身是一个很标准的产品,有很多标准定义的非常清楚,大家肯定有很多疑惑为什么定制化?定制化最早时候很多设备商都在定制化,在光模块标签以定植自己的信息,用来区分跟公开版的光模块之间的区别。我们其实可以这样定义,方便我们追踪跟厂家提供的光模块区别。另外在一些对光模块供应商设计或者生产带过来很大的影响,不会影响太多成本的情况下的定制化。其实还有非标产品的。还有更深入的定制化,直接控制上游供应链。

再一个开放光模块带来的好处运维管理,我们很多交换机光互联是物理传输基础,如果在光互连这个地方出现故障的时候,如果自己没有技术能力,出现故障往往都要依赖交换机供应商到现场解决问题,如果在开放光模块方案上面自己掌控技术之后,我们自己可以解决光互连引起的故障,不依赖供应商。第二开发相应的日常监控手段,光缆点的不好,或者光断面有一些脏的情况,本身到了临界的状况,随着时间的推移,光老化之后,可能有变化导致整个接收质量下降,如果建立一个日常监控手段,我们可以很早发现异常的连接,尽早做一些解决,把问题解决在早期,不发生比较严重的影响网络性能的事件。最后因为我们自选择光模块可以做质量监控手段,可以统计光模块在数据中心里面的效率,甚至工作当中的效率,直接要求光模块供应商做质量改进,对运营管理也是比较有意义。

最后关于技术演进,大家如果参加过会议,未来200G、400G,以及现在在评估的25G,100G,这些速率,再加上光模块封装形式涌现越来越多,新出来的QSPD等等,编码方式出现了新的,去年从以前SR,还有一些波分的技术上有CWDM,这些技术可以排列组合出很多光模块的解决方案,到底哪个方案才适合我们自己?如果对技术没有了解,你不清楚光互连需求,最终可能选择出来的方向就是错误的。所以这些上面的原因导致开放光模块带来很大的好处。

开放光模块讲到很多好处,我们不是专业做光,我们可能带来很多挑战,这些问题需要相应的建设一些能力解决。首先第一个测试规范,我们测什么东西?我们会不会漏掉一些测试?漏掉测试可能带来一个风险是多大?第二个光模块跟交换机高速信号,这是比较专业的领域,而且比较容易出问题。第三个光模块识别,交换机软件由转换机来做,你模块是不是能被它正确识别。第四个数字诊断,如果在数字测试忽略什么导致什么后果?最后是温度范围,光模块温度不只是取决于自己的功耗,还取决于所处交换机。最后就是运维管理需要有一些什么问题需要解决?

测试规范首先我们认为对于光模块分为五个主要测试项,第一个针对参数测试,不依赖于其他系统,主要看所有光参数,电参数,是否符合标准。第二个模块配合设备的兼容性测试,我们用到设备很多,交换机数据中心客户用的不只一家交换机,针对模块和交换机之间做配合性的测试,这个测试一方面做业务测试,还要做秘密读取等等,第三个异常操作测试,比如快速插拔,主要考虑光模块机构设计以及热插拔设计。还有极限测试,有温度规格范围,有支持光缆长度范围,针对极限做测试。做极限测试也要建议好加一些余量上去,温度最后上下各加5度,长纤建议超出支持规格做测试,原因是我们拿到的样品数量有限,必须有一定的设计余量,否则大量发货会出现一些配合性问题。上面测试做完之后,我们认为少批量样品的选型测试做完,最后可能线网当中做批量的灰度测试。

高速信号是电信号,光模块跟交换机的高速信号,为什么容易出问题?光模块是自己采购,交换机是负责那面的配置,最容易出问题就是两个设备之间交接的地方,影响因素一个是交换机芯片侧的预加重的均衡,交换机PCB板上的走线损耗,光模块侧信号的预加重和均衡,这样需要我们去评估。如果解决这样的问题需要什么建设能力?一个熟悉和了解百准,第二个要有测试的能力,当然拔高一点需要高速信号完整性的分析能力,有这个能力当你遇到问题的时候才能解决,这个相对来说比较难,数据中心客户一般很少会有高速信号完整性的团队。

接着就是光模块识别,我们经常遇到一个问题因为交换机当你插入一个模块之后首先软件判断你是什么类型?你是统揽还是模块,之前看到一方写的不标准,或者交换机软件自己考虑不够全面,插进光模块识别统揽,可能当时测试看业务不一定有问题,大量上的时候发现有些端口起不来。接着就是光模块的厂家、PN、SN信息,这个方便对光模块的管理,需要测试心里的显示,读取是否正确。

接着数字诊断功能,对我们意义主要是日常运维监控这些信息,第二个将来出现故障的时候进行远程的诊断,可以读取到信息是否有问题?我们主要对数字诊断功能测试主要是精度测试,在标准里头定义不多讲,大家需要注意的是精度对温度比较敏感,也许在常温下测试符合要求,但是在低温高温有可能不满足要求,这个在测试的时候需要注意这些问题。

关于温度范围,这个地方经常大家理解出一些问题,觉得末范围0到70度,IDC的通常环境温度0到40度,其实不是这么理解,工作中的光模块表面温度等于当前环境温度加上光模块的温升,这个由哪几个因素决定?不同功耗的光模块造成的温升也不同,不同交换机的光模块温升不同,相同交换机的风流模式不同造成的光模块温升不同。所以在光模块温度上要特别谨慎,虽然北美很多客户做温度的范围缩减,可能大概交换机种类不是太多,如果数据中心交换机种类非常多,可能需要考虑不同交换机测试的结果。

最后运维管理解决的问题主要就是突破交换机软件限制,商用交换机软件运营接口OS不一样,而且如果想增加特性的话必须得请交换机厂家帮你开发这样的运营,我们可以借鉴OCP公开OM方案,交换机上面做适配权,所有运营程序在上层做开发。另外一个接口标准定义好有一定的扩展性,方便将来扩展新的功能,比如光模块增加新的检测,我们可能需要增长一些扩展的接口,方便将来扩展新功能。

最后开放光模块做一个展望,对于数据中心网络开放光模块是大势所趋,有了开放光模块选型维护管理能力,才能在光互连方案技术运维上面把细节做好,不是一个粗犷的选择方案,而且在细节不断优化。开放光模块有不同的程度,第一个程度打开一个统一规格,自行采购。第二个在运维上做个性化需求,统一运维管理。第三个像北美客户做ODM,不同程度不代表有好坏之分,只有适合不适合数据中心客户的区分。谢谢大家。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-09-25 17:36:03
互联网 1—8月份,我国电信业务收入累计达11417亿元
截至8月末,5G基站总数达313.8万个,占移动基站总数的27.5%。 <详情>
2023-09-25 14:27:47
机房建设 “信力量 新可能”走进中企通信云数据中心(上海站)暨“算力中国行”上海站 活动圆满结束
在全球范围内拥有强大ICT资源的中企通信,也得到了众多如上海联合产权交易所等国内外知名企业的“青睐”。 <详情>
2023-09-25 10:19:13
国内资讯 数能相融 品牌新生|合盈数据发布绿色数能品牌—GED³
伴随着产业实践的深入,合盈数据将产业融合创新、生态可持续发展的认识总结提炼为GED³。 <详情>
2023-09-11 18:37:24
云资讯 吴泳铭接替张勇出任阿里云代理董事长与CEO
阿里巴巴公司将继续执行之前宣布的计划,对阿里云智能集团进行分拆。 <详情>