9月27日,由云计算发展与政策论坛、数据中心联盟指导,开放数据中心委员会主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院、英特尔承办的“2016 ODCC开放数据中心峰会”在京隆重召开。在下午“数据中心网络”的分论坛上腾讯高级网络架构师陆素建发表了题为“腾讯Internet 出口网络SDN 运营实践”的演讲。以下为演讲全文:

陆素建

腾讯高级网络架构师 陆素建

今天我分享主题就是腾讯internet出口网络SDN运营实践,腾讯从2012年开始做SDN研究,最近我们internet出口SDN方案已经在线网落地运营,今天很荣幸在这里跟大家一起分享一下这套方案落地运营的情况以及在期间遇到的挑战。开始讲这套方案之前简单看一下腾讯网络概括,我们全球各大洲部署了网络结点,当前海外接入了一百多家运营商,总出口将近一个T,同时积极跟本地进行对接。国内部分我们分为三大华东华南华北,明年也会扩展西部。当前三大接入运营商主力超过两个T的带宽,同时我们在国内积极跟中小运营商进行对接,我们已经接了将近30家中小运营商,可以看到腾讯internet出口带宽资源非常丰富,我们仅仅要管理好这么多出口资源本身就是很复杂的工作,我们要定义很多路由策略让不同出口选择不同路径。

在实际运营过程中我们还遇到更多的挑战,上面这两个图,上面场景在线网运营中非常常见,出现这两个问题的最根本原因就是当前BGP没有考虑网络实际情况,没有考虑质量情况,没有考虑拥塞的情况。我们想到SDN解决方案,业界通用我们需要把网络中的数据信息上送到控制器,由控制器集中计算,详细看一下腾讯怎么做的?我们通过BMP采集路由,采集出口与网络流量,网管采集出口网管的质量信息,外部导入AS以及IP对应关系,我这套控制器需要计算的所有信息已经获得,这时候配合腾讯定制的路由计算算法完成集中的计算,然后通过BGP实现正确的路由选路。这个方案整体看起来非常简单,我们看一下实际运营效果怎么样?首先看一个最简单的例子,SDN方案带来的收益。传统封堵会通知网管我IP受到攻击,网管动作网络设备下配置,这种方式有很大的缺点,首先效率非常低,我们受攻击的时候希望毫秒级完成封堵,因为当我受到攻击频繁变化的时候需要频繁登录网络设备,有可能对设备稳定性造成影响,我还有其他的运维人员需要操作这台设备。我们通过SDN解决方案,当我检测到受攻击IP的时候通过北向接口通知给控制器,伪造一套路由,目的地址就是受攻击IP,我们转发设备预先设备好的指向的路由,当路由下发到转发路由通过路由迭代就实现封堵,线网运营的时候提升的一百倍,并且封堵成功率提升到百分之百,同步BGP标准协议下发不需要频繁对网络配置进行修改,也提升了网络的稳定运营。

我们看另外一个收益,出口调度,运营商的网络质量和出口故障或者进行变更,比如左边出口切换到右边出口,比如华东切到华南,以前做法需要运维人员跟着网络设备改配置做接口切换,这些效率低,可靠性比较低。原来为了减少改的配置量,所以出口切换基于整个出口切换,所以不能做到基于网站去做,通过我们SDN方案,我们需要做出口切换的时候可以登录前台管理页面,运维人员直接输入必要的关键信息,输入之后由控制器完成计算,最后转换成IP路由,这个效率也是非常之高,而且可靠性很高,我不再需要运维人员说自己改配置。同时对腾讯线网出口设备多个厂商,以前改配置的时候需要不同厂商下发不同配置,后面就改成标准通道,最关键的可以实现基于网络的调度,可以做更精细化的调度。

另一个对业务大的收获就是网络质量的提升,可以做到自动优化。我们腾讯网络出口非常多,有十几条路到达用户,以前做法都是自己选,现在不了质量探测服务器,我们进行周期性计算下发给转发设备,转发设备引导流量走势。我们获得的收益这整套系统都是自动化采集,自动计算,自动下发,对业务而言可以获得更好的服务质量,对于网络运维而言,这个算法是定制化,现在可以根据质量做路由计算,以后可以加入成本因素,可以在满足网络质量前提下,我选择一个更加低廉的成本出口,也可以让我们得到成本的节省。

在这套方案落地过程中是否是一帆风顺呢?我们也有很多挑战,首先这个图是最早期的internet出口部署方案,每台转发设备旁边都部署BGP与运营商设备建立EBGP,通过BMP将路由上送控制器。控制器完成集中计算后通过IBGP下发给BGP Agnet,BGP Agnet通过I2RS将路由下发给出口设备。我们在落地过程中遇到另外一个挑战,早期时候在路由控制器跟转发设备交互最早选择I2RS协议,听名称知道这个协议开发出来就是为了在路由器上面开一个接口,让控制器去调,天生为SDN准备的,当初也选择了这么一套交互协议。但是我们在落地过程中遇到一些问题,这个协议很新,不是所有供应商都愿意转发设备支持这个协议,因为太新即使供应商都愿意做,大家对这个的理解不一样,最终理解千差万别,所以不能相互兼容。还有效率太低,这个协议顶层传输通道效率很低,我们测的过程中发现大的效率达到1500每秒,对于互联网已经超过60万路而言,这个效率太低。后面尝试选择其他交互协议,选择了BGP通道,这个发展几十年,大家都支持,所有路由器厂商或者交换器厂商对这个协议支持都很好,没有兼容问题,其实效率很高,我们达到15到20K每秒,基本能满足所有需求。这里可能有人疑问,既然BGP这么好为什么一开始选择I2RS?实际通过BGP通道下发路由会改变转发设备原有路由表,什么意思?左边的图跟运营商对接转发设备收到运营商路由之后通过R反射到全网,路由控制器下发的路由希望只对控制进行路由,所以我们对路由控制器BGP路由做了限制,不让向外发布。我们控制器下路由指导流量转发,所以我们优先级比原有转发设备从运营商的要高,这样一来出现一个问题,我们路由控制器下发路由覆盖原有转发设备从运营商的路由的时候,这个路由变成黑洞,只有在这台设备有,其他设备就没有,进而改变整个BGP路由表,这个是我们不愿意看到的,可能引起其他路由黑洞和滑落问题。这个和很多厂商沟通过,大家都觉得这是一个棘手的问题,有些供应商和厂商最终讨论来讨论去最终解决方案在转发设备再开一张表,现在转发这个设备大家知道有路由表跟转发表,他们说再开一张表,这样做对腾讯用户而言时间太久了,首先不是所有的供应商都愿意这么干,在我路由器下面开放第三张表,即使做了不会那么快的实现,需要硬件做改变。所以我们后面在思考有没有其他更好的适合腾讯的解决方案,最终我们选择了对网络设备做分级。思路是说对设备分离,部分设备只接运营商,运营商设备和IDC设备,IDC设备不部署路由控制器的时候我通过RR反射给他,他没有出口,他不需要引导其他流量转发出去,我路由控制下的路由即使覆盖从RR的路由,我发出去不会有任何影响,这样很好解决了BGP下一个路由之后改变路由未来得情况。这种改变方式获得了另外一个收益,IDC不接运营商,我们可以用交换机替代,不需要用传统的路由器,这个现在已经在线网做试点部署了。

我们在落地过程中还遇到一个挑战,庞大的路由表,SDN方案设计之初基于网段做集中计算,基于网段做下发,这样完成一次集中计算需要十几分钟,这个效率太低,所以后面思考要改变。我们改变的方式是说基于AS去做,我们采集网络质量还是基于网段采,集中完成计算,五万多条计算完成是秒级,然后再转换成网段信息。以后我们还是希望实现基于网段的优化,所以以后思路是做算法的优化,提升算法效率,第二个思路我们在控制技术和集群分布式处理,可以提升我们的效率,这是我们后面会继续做的事情。前面讲了很多,我这边简单有一个总结,腾讯在出口internet的网络部署SDN,并且给腾讯网络带来一些收益,选路因子多元化,其次运营效率提升,业务质量提升。SDN架构落地过程中也遇到很多挑战,积累了很多经验,SDN方案落地需要循序渐进,不能因为为了引入SDN,我们之前说的通过BGP方式,虽然很理想,但是故障隐患比较大。其次交互协议选择需要考虑周全。最后SDN方案落地需要具有变通性,我们在现有技术一些限制下面,我们可能需要对SDN落地方案或者现有网络架构做一些改变适配我们SDN,今天分享就到这里,谢谢大家。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-09-25 17:36:03
互联网 1—8月份,我国电信业务收入累计达11417亿元
截至8月末,5G基站总数达313.8万个,占移动基站总数的27.5%。 <详情>
2023-09-25 14:27:47
机房建设 “信力量 新可能”走进中企通信云数据中心(上海站)暨“算力中国行”上海站 活动圆满结束
在全球范围内拥有强大ICT资源的中企通信,也得到了众多如上海联合产权交易所等国内外知名企业的“青睐”。 <详情>
2023-09-25 10:19:13
国内资讯 数能相融 品牌新生|合盈数据发布绿色数能品牌—GED³
伴随着产业实践的深入,合盈数据将产业融合创新、生态可持续发展的认识总结提炼为GED³。 <详情>
2023-09-11 18:37:24
云资讯 吴泳铭接替张勇出任阿里云代理董事长与CEO
阿里巴巴公司将继续执行之前宣布的计划,对阿里云智能集团进行分拆。 <详情>