陆睿

大家下午好,我叫陆睿,来自阿里巴巴集团,在阿里巴巴主要负责数据中心光网络架构设计和今天。今天很荣幸再次来到这里给大家做技术分享。我今年的技术分享题目是下一代的数据中心光互连技术的思考。2016年以前我们阿里巴巴就已经使用在服务器到交换机这层,使用实际的开放的AOC.当时因为我们考虑到光互连在交换机连接承载的业务量比较大,所以我们开放的角度慢一点。我们在2016年做了40G光模块的试点,整个结果看上去还不错,也坚定了我们在开放光模块AOC这个路线往下走的决心。到今年我们阿里的网络应该说全面的开始部署开放的25G、100G、10G、40G,都在用开放的AOC以及光模块。

后面我会稍微分享一下我们在这块的经验。首先我讲的是在过去的一年,我们的云计算、互联网、AI的各种发展,使得我们数据中心的发展非常快,无论是数据中心的建设量还是数据中心性能提升的需求都变得越来越迫切。到2019年我们的数据中心光模块的发货量达到1000万,2021年市场规模达到49亿美元,增长非常的迅速。从以往的技术主要的驱动力,是在电信的网络,大家知道像路由器、光传输,对带宽的增长需求更迫切。但是从我们现在看到的情况来看,以100G为例,在路由器和传输上面出现会比数据中心的交换机上出现早好几年。但是400G这一代,CFP的模块,去年有产品出现,但是数据中心100G的光模块有望在今年年底出现,差距就变成了一年时间,到未来的时间需求可能会一样。从另外一个角度来说数据中心对光模块的特性需求跟电信网络不太一样,它对小型化、高密度、低功耗、低成本都有更高的要求。也就是说我们认为数据中心现在已经成为了推动光通讯技术发展的另外一个引领。

另外,我们看到数据中心的硬件、软件,都呈现了全面开放的趋势。数据中心的基础设施对于我们的最终用户来说越来越趋向于白盒化,不再是我们看不见的黑盒子。这个好处除了有成本的降低以外,也使我们更加能触摸到内部的技术,从而也能够把真实的需求更快的反映到上游的供应商,把我们的需求变成现实,这也是为什么到了100G时代各种各样的MIC标准出来,不像以前的标准了,就是因为数据中心的用户需求也变得多样化起来。

我们在开放的光模块AOC的经验分享是五点,第一个就是技术规范的制定,我们认为这点很重要。大家虽然也知道像光模块、AOC都有标准组织制定了所有的光电参数,或者是定义。我们在集成的时候还是经常会发现有光模块或者AOC插到系统设备利,要么就是不识别、不工作、不稳定,或者是访问信息发现上来的都是不正确的。原因就是虽然标准在那里,但是大家在实现的过程中,设备商和光模块的供应商他们会有理解不一样的地方,或者为了快速推出产品,标准上面并没有做到全部的适配。比如说对内容的理解造成的差异,或者是高速信号之间的匹配,尤其到了像25G这个时代光模块AOC里都有CDR,还有均衡,这些参数的配合造成的问题都比以前像10G、1G的光模块来说来的多。还有有的不支持400K,或者(英),导致获取信息的错误,这些都是我们在不断的摸索当中要制定的规则,使大家在集成的过程中出现的问题更少。

第二个重要,就是集成测试的重要性。要结合到规范一起来做的。我们集成设计中发现的问题要快速的反馈到我们的规格当中,这两条能够使得整个的光模块用在系统设备利变得更加的顺滑。

再一个就是性能、稳定性、可靠性的挑战。大家知道阿里的云计算业务都是非常关键的,在光通讯的整个速率的提升过程中,效率不断的提升,1×10的负2次方的马力,是16分钟多,10G的时候可能是100秒,100G的话就是10秒。同样的雾码率的情况下,数据增长的情况下会被人为感知的越来越明显。实际上我们数据中心不愿意看到任何的雾码,尤其是现在的存储业务对丢包来说越来越敏感,所以我们对光模块的性能其实要求是在提高,而不是降低,同时我们的业务对稳定性、可靠性要求更高,我们对光模块的厂家有2000小时的这种测试的要求。

再一个就是我们使用开放的光模块的过程中,我们也要面临这种建设运维的挑战。因为在过去我们对光模块都是由系统设备提供,现在全部是由用户自己进行建设和运维,出现任何问题,我们自己要有定位问题的能力,同时也要有责任的划分,以便于快速明确到责任方。

更重要的是我们在实践当中要不断的去总结,怎么样去发现这些问题,流程上的问题、技术上的问题,最终理清整个的流程思路,使得整个开放的第三方的光模块的AOC在数据中心不会出现任何的问题。

接下来讲一下我们阿里的数据中心网络演进的方向。这个图是典型的数据中心网络的架构图,这里我们的光互连技术分为两块,第一块是从服务器到接入交换机,这层通常用AOC作为传输介质。然后到核心交换机这块,我们用的一般是光模块。这个速率可以看出,它们的速率倍数是4倍的关系,之前可能是千兆和万兆,是10倍的关系。但是10G以后,也面临速率提升的瓶颈,所以我们都是4倍的关系。因为服务器到接入交换机的距离相对比较近,一般是用线缆的方式,就是AOC.到交换机和交换机的连接距离通常比较长,我们是采用光模块加光缆的方式。过去大家的部署是10G、40G,今天部署的是25G、100G,未来我们希望到100G、400G的网络,接入的100G,到上面交换机的互联是400G.单通道25G往下一代是50G,为什么我们去跳过了50G和200G,因为我们觉得无论是上游的供应商还是用户,我们投入了这么多的精力提升这个速率,如果带来的好处只有两倍,这是我们觉得不太好的。我们希望一步跳到400G、100G的速率。

这页是数据中心网络的演进时间表,在OFC上面曾经预测过数据中心网络的速率提升应该是三年一代,从实际开始我们开始比较符合这个演进的方向。大概2013年、2014年左右开始部署10G、40G,三年之后的今年开始批量部署25G、100G,我们预测到2020年可能会批量部署100G、400G的网络。

这页我们介绍一下未来400G光模块可能的封装,大家知道光模块的封装有大有小。比较大的封装便于容纳更多的光元器件进去,可以提供更多的接口,可以容忍的光模块等级也更高一些。CDFP和CDP8就是这样的,这是早期使用的方式,像CDFP和CFP8只能放16个,功耗可以到12W,每U的带宽高提供6.4T.这两个封装因为过大,我们不认为它会是数据中心交换机的选择,更多应该是电信网络里面的选择。电信号的通道数是16个25G,也就是说以现在的service的能力就可以使用这样的光模块。我们数据中心的400G光模块更可能的封装应该是OSPF和QSFP-DD,相对来说大一些,都是8×50G的电信号接口,尺寸上面每U可以容量的端口数差异不大,32个和36个。整体上来讲它们在每为U提供的带宽,12.8T和14.4T.我们更倾向于QSFP-DD,大小和遗忘的QSP28是一样的,对于我们数据中心的驻场人员来说,这个光模块的大小、外形没有大的变化,对于我们运维的人来讲更容易识别,也不存在另外的风险。同时它依然是小型化,对于系统设备商来说设计可以维持以前的力度,对于我们架构设计上来说可以沿袭以往的。QSFP112是100G的,短期内应该还很难做到实现这样的低成本的4×100G的电通道的方案。这了这些可插拔的模块封装之外,还有板载的方案,这对于数据中心用户来因为不可以现场操作,这是比较大的痛点,除非是我们这种可插拔的封装实在搞不定,否则我们不会选择这种板载的方案的。

这张图是阿里的数据中心从去年的10G、40G,到未来的25G、100G的方案。10G是AOC,40G主要是ESR4,2013年部署的。25G、100G是今年部署的,但是由于100G只能到100米PSM4,所以要解决100米以外的更长的距离。未来的100G、400G网络,我们初步的规划是接入层用100G的SSFP56-DD.整个演进过程很清晰,从接入数据10G到100G,端口的密度在交换机上都可以保持不变,同时带宽的密度增加了2.5倍和10倍。

接下来介绍一下具体为什么选择这样的方案,在10G、40G时代,其实标准不是很多,主要就是40G的SR4、ESR4,还有LR4,对数据中心的连接来说300米已经覆盖了绝大多数的连接场景,这也是为什么我们在40G这个时代大多数都是在选择多模的方案。极少数的超过300米选用40G的LR4lite或者LR4单模方案。10G接入主要以AOC方案为主,距离的限制小,成本也是可以接受的程度。

到了今天的25G、100G的时代,我们现在看到的是100G的SR4多模块的方案技术也比较成熟,但是它只能解决最长到100米的距离,这个距离是覆盖了大多数的场景,但是还有很多超过70米、100米的连接,我们选择PSM4,这个更有优势。对于中国的多数数据中心可以接受多模和单模的混合,极少数采用单一的结构化的,在美国那边更多的采用的是结构化布线,可能会用全单模的方案。25G接入,我们现在看到的是AOC目前的成本还是比较高的,但是在一个快速下降的通道当中。DAC无论是在性能还是运维界面不及AOC的方案,但是成本目前来看比较低,所以某些地方还有应用的空间。

到了下一代的100G和400G的网络,我们的高速信号实现变得越来越难。我们以前知道整个光连接提升带宽的方法其实总的来说有两种,第一种就是我提高每个通道的比特速率,第二种就是增加我们的通道数。提升比特速率有两个方法,第一个就很简单,我们直接提升波特率,第二种可能就是保持波特率不变,我们使用更高的调试编码的格式。在千兆,不到万兆的时候,因为这时候技术的瓶颈还没到,我们直接就提升波特率。但到了10G以上,我们整个无论是电也好、光也好,提升波特率变得越来越难,所以不得不采用编码的方式增加带宽。另外一种就是增加波长通道和增加光纤通道,这会带来成本的增加。

未来的100G接入的解决方案,我们分析大概应该会有三代的演进过程。第一代也就是现在了,现在我们其实也有少量的100G接入的应用场景,按照现在的技术而言不得不选用QS28的电信模块,第二代我们会配合下一代的IC芯片,无论是电也好,光也好,都变成2×50G的实现方式。未来的第三代,就是单通道的100G,对于这个100G的接入来说都有各自的应用场景,AOC主要负责比较长一点的,铜缆负责短一点的连接。

到400G的解决方案,发展分为四代,通常来说光的速率提升比电快一点,第一代可以看到现在已经有产品出现,就是用CPF8这样的光模块封装,电信化仍然是16和25G,光信号在这块在多模还是16和25G,光的话现在已经有8×50G的FR8和L8的方案。第二代的话整个电信号升级到50G,8个通道。单模有FR8,LOR8,电信号和光的数据完全配合上。第三代的产品电信号还是50G,光可以提升到100G,有三种方案。SR4的话要取决于多模的技术到底有没有潜力能够提升到单通道100G的方案。到最后第四代从电到光都提升到单通道100G.过去不存在光电信号不匹配的时候成本应该是最低的,现在如果出现光电信号不配合的话,需要增加gearbox的技术。

在阿里下一代100G的接入方案,目前来说倾向于在接入层用100G的SR2AOC,这种AOC主要能解决最长到25米到30米的接入连接,优点很明显,距离长,整个限制少。缺点就是因为芯片和模块开发,标准化进展会比较慢一点,涉及到的初期成本也会比较高。铜的连接方案主要的优点可以用25G的DAC的,很快开发出产品,缺点也明显,距离短,整个的缆会更粗,大规模部署的性能也会是一个风险。400G的光互连方案先看看多模的,有的方案是SR4.2或者SR8,现在的潜力已经很难挖掘了,但是VCSEL本身的成本优势非常大,如果在50G可以实现的话还是有应用成本的,模块的成本可以控制的很低。SR16不太建议使用这个。SR8和SR4.2虽然符合我们的要求,但是从我们以往的运维来看,还是希望倾向于用4.2,需要两个通道的多模,这样的话可能会使用宽带多模光纤,光纤成本哪个更低,我们认为还是八星的宽带多模更低一些。所以多模的方案在400G的时代能不能进行下去,关键是在光纤,如果光纤加上光模块整体成本比较单模有优势的话,还是有它的生命力的。

接下来是400G的单模方案,单模让按我们认为比较清晰简单,因为我们的数据中心里面大长度500米能够覆盖绝大多数的应用,所以DR4应该是主力的单模方案,可以用在PSM4的8芯的单模光纤,光纤成本可接受,不需要合波分波的器件,实现DR4里面也有更多的优势。FR4也有应用场景,超过500米的跨楼的应用可能会用到,这两个方案是我们认为未来数据中心主要的方案。

接下来是我们要选择的400G光模块的封装,封装刚才前面也提到了,QSFP-DD是是一个选择,支持可插拔,保持和以往一样的运维习惯和密度,而且可以向下兼容,也可以向上平滑,升级到未来的400G的,演进路线非常清晰。

100G接入模块的封装,因为变成了两通道,两通道的话如果还沿用以前的4通道封装,不利于小型化。我们阿里也是在SFP的基础上做了一下创新,联合了一些供应商一起推动并建立了SFP-DD的MSA组织,增加了一倍的高速信号。最重要的意义在于填补了现在光模块封装里面两通道的空白。选择它的理由就是因为封装比QSDB更小,适合我们的数据中心,也保持了兼容性,可以兼容25G、50G,可能有些客户会需要这样的应用。

所以整个来说我们看到这是阿里未来的100G、400G的规划,整个我们的方案目前来说并没有成为最终的未来真正落地的方案,但是我们希望能抛砖引玉,能够使在ODCC的环境下和上游的供应商一起讨论,在一起沟通,能够在未来的100G、400G网络里确定大家共同的方向,谢谢大家。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-09-25 17:36:03
互联网 1—8月份,我国电信业务收入累计达11417亿元
截至8月末,5G基站总数达313.8万个,占移动基站总数的27.5%。 <详情>
2023-09-25 14:27:47
机房建设 “信力量 新可能”走进中企通信云数据中心(上海站)暨“算力中国行”上海站 活动圆满结束
在全球范围内拥有强大ICT资源的中企通信,也得到了众多如上海联合产权交易所等国内外知名企业的“青睐”。 <详情>
2023-09-25 10:19:13
国内资讯 数能相融 品牌新生|合盈数据发布绿色数能品牌—GED³
伴随着产业实践的深入,合盈数据将产业融合创新、生态可持续发展的认识总结提炼为GED³。 <详情>
2023-08-28 14:29:03
机房建设 从技术框架到建设与服务 数据中心如何向智算中心演进?
企业类智算中心数量还将增加,但规模较小,未来区域智算中心将是智算中心的主流。 <详情>