10月16日,2018年开放数据峰会(Open Data Center Summit 2018)于上午在北京国际会议中心开幕。作为数据中心行业的一大盛事,ODCC每年都将汇聚数千名数据中心专家与几十名主流媒体。本届峰会时间为16日-17日,ODCC将发布最新研究成果,碰撞尖端热点技术,分享国际技术进展,展示主流产品应用。

1


 

龚敏:大家下午好,不知道大家这两天听下来有什么感想,我的感想是今年MEC在ODCC讨论得特别多,是今年比较火的话题。

MEC 最早叫Mobile Edge Computing, 现在大家都叫Multi – Access Edge Computing。 不管是移动的边缘计算或者是多接入的边缘计算,都离不开NFV这个课题,因为MEC里很多的应用实际上是网络的应用。所以我今天这个题目也可以把它改为边缘服务器的QoS管理。

我会从以下几个方面介绍,首先讲QoS与云、SDN的关系,第二讲在服务器里影响QoS的有哪些要素,第三是介绍英特尔的一些项目还有我们的一些技术,最后有一个整个QoS管理的框图。

公有云里主要关注三个东西,一个是讲服务可用性,一个是SLA等级管理,第三个是带宽/吞吐量,可是对应到SDN/NFV以及电信云,还有刚才讲的MEC的部分,关注的内容除了这三点以外还有更多的内容需要去关注,一个是传输延时,还有响应时间以及中断延时,二是讲性能及延时的一致性,不能放在不同的CPU上,性能的波动非常大。最后是5G网络切片需求,不同的切片对QoS的要求也是不一样的。

为什么需要QoS,不管是云也好还是SDN/NFV也好,基础都是虚拟化的技术,虚拟化的本质就是要用虚机或者虚拟化的实体去共享服务器物理资源,包括CPU、内存、网络、存储、加速等。既然是共享,所以竞争不可避免。

当我去剖析产生QoS问题的两大根源,就会发现无外乎两各方面:第一个是硬件的资源分布不均衡,比如在有些CPU上挂很多资源,有些CPU上压根没有资源。首先是内存,英特尔也做了很多测试,特别不推荐的是内存非对称的配置。第二个是NUMA Balance,IO及加速设备没有平均分布在两个CPU上,或者更多的四路、八路的CPU上。另一个原因是讲虚拟化实体之间本身的竞争和干扰,首先QoS建模不准确。第二是在业务编排时,可能没有给到足够的资源,第三个是负载不均衡,最后是流量控制不准确,本身这个CPU这个核已经跑满了,可是流量控制没有跟上,还在不断放流量到这个虚机或者虚拟化实体里来。总的看下来,根源还是讲TCO和SLA等级两个要去做一个平衡。

影响QoS的要素在服务器上的分布,1核个数要求、2内存容量要求、3网络带宽要求是目前公有云的可选项,你去访问一个IaaS的平台,它实际上让你input的几样东西,就是要求多少核,要多少内存、多少网络,还有存储要多少。但其实影响到QoS要素远不止这些,包括Cache占用,在英特尔的架构里或者其他也有别的CPU的架构里,在最后一级缓存是所有的核去共享的,除了所有的核之间本身有竞争外,在同一个核里,不同的虚拟化实体之间也会有这个竞争。这块对整个QoS有蛮大影响。还有内存带宽占用,不管你多少个通道,所有的核、所有的虚机访问都是通过这个物理通道访问。这块的带宽如果不去对虚机做分配和限制,势必会被‘Noisy Neighbor’干扰。当然业界有很多讨论,它有一个虚拟化实体特别强势,老是占用资源,它就是‘Noisy Neighbor’。第六个是核的主频问题, 不同应用对核的主频要求各不相同。第七个是跨NUMA访问限制,刚才从文也有讲这个,我们从CPU本地区访问它的IO资源或者加速资源,跟你跨过UPI再到另一个地方访问这些资源,得到的延时是完全不一样的。

回顾一下传统服务器在公有云部分怎么做QoS管理,管理的部分比较少,都是通过VIM下发到Hypervisor,为什么Hypervisor没有划到服务器里面去,现在有很多人是把Hypervisor独立出来的,去做offload,不要放到CPU上。这个是4和5的部分,一个是讲内存/带宽的绑定,一个是讲cache占有率的绑定。黄色跟绿色代表两个APP,如果你不去做绑定,那它在内存编排器里资源的占用是杂乱无章的。英特尔的技术RDT技术允许我们做一个绑定,限制虚拟化实体它只能用多少带宽。这个是cache的部分,也有差不多的技术,我们是限定某一个虚机只能用哪些路cache。右边那个图是讲我们做过绑定之后的效果,每个虚机只在它对应的位里去占用对应位的cache。这是性能的对比,两个APP ,第一张图是没有做绑定的,当一个APP出现峰值的时候,另一个掉到了谷底。这个是经过绑定之后的,可以看到两个APP的performance是很稳定的。

如前面所提到, 除了虚机之间自己竞争的关系,我们有另外一个原因,硬件硬件资源本身分布不均匀,NUMA Balance解决了一部分硬件资源分布不均匀的问题,我们做了很多测试,跟合作伙伴一起也做了很多测试,这是性能对比。在电信服务器里NUMA Balance的概念是蛮好的概念。

接下来我在前面讲的核主频的问题,不同的虚拟化应用对核的主频以及核的个数要求不一样,对电信业务了解的人可能都知道,用户面的虚机、虚拟化实体等这些对核的主频要求蛮高,希望核主频越高越好。存储,对核主频要求不那么高,追求的核数和主频是平衡。普通的VM这块,一般的企业应用,他可能单纯就是需要核的个数更多,对每一个核的主频他是不太关注的。这么多的应用对CPU核的性能各不相同,那我们是不是要部署这么多款不同的服务器?当然不是,这样部署的话那我们整个的TCO数是很高的,而且你的测试开发工作也会相应增加。有一个很重要的建议,电信服务器也好,边缘服务器也好,我们需要支持动态主频的设置。

总结一下,电信服务器需要NUMA Balance设计以获得硬件资源的均衡分布,第二是电信服务器或者边缘服务器在管理接口要预留CPU核数及频率设置选项,第三个是英特尔在QoS管理上做了很多的创新,也有很多新的技术,我们也会持续努力跟各位合作伙伴一起为客户创造更多的价值。

我的演讲就是这些,谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2018-10-17 17:06:27
国内资讯 现场直播|中国移动研究院网络与IT技术研究所ODCC项目经理/研究员 高从文:拥抱5G,助力边缘
OTII顾名思义,Open Telecom IT Infrastructure,开放电信IT基础设施,首要目标是支撑未来5G、NFV和边缘计算的发展,需要强调的是,它是一个开放标准、统一规范的服务器的 <详情>
2018-10-17 16:56:55
运维管理 自然环境愈发恶劣,地下数据中心成为趋势
数据中心和托管数据中心的安全性和弹性的未来将是地下结构,这是一种新趋势。这种类型的高级部署意味着关键操作可以避免天气事件的危害,使供应商能够重新控制其他无法控制 <详情>
2018-10-17 16:45:00
运维管理 如何给数据中心机柜加把安全锁?
企业无需对数据中心机柜或机架进行全面改造,即可进行更好的机架级控制和审计。选择附件的良好试验计划可以为组织提供所需的实际操作,以确保在准备执行更完整的部署时取得 <详情>
2018-10-17 16:37:00
运维管理 数据中心开通运营,电气测试人员有问必答
数据中心运营商都致力于其新建的数据中心按时上线,并为其全天候的正常运行做好准备。由于电源是数据中心的运行生命线,电气设备是数据中心建设和运营计划的核心。 <详情>
2018-10-17 14:44:03
国内资讯 现场直播|DMTF区域副总裁 Michael Du:数据中心管理新标准 Redfish的介绍
为什么说Redfish要取代原来的管理协议,原来的管理协议时间也比较久了,在设立之初,没有想到现在有这么多新的硬件、新的管理需求。现在Redfish推广的初衷,一开始有三个, <详情>