中国IDC圈12月28日报道,12月20-22日,第十一届中国IDC产业年度大典(IDCC2016)在北京国家会议中心隆重召开。本次大会由中国信息通信研究院、云计算发展与政策论坛、数据中心联盟指导,中国IDC产业年度大典组委会主办,中国IDC圈承办,并受到诸多媒体的大力支持。

中国IDC产业年度大典作为国内云计算和数据中心领域规模大、具影响力的标志性盛会,之前已成功举办过十届,在本届大会无论是规格还是规模都"更上一层楼",引来现场人员爆满,影响力全面覆盖数据中心、互联网、云计算、大数据等多个领域。

会上, 安畅网络CTO张玮出席IDC服务大会并为当天的安全运维分论坛做《数据中心流量精细运维与管理》主题演讲。

张玮-(3)

安畅网络的CTO 张玮

 以下是演讲实录: 

今天讲的背景是以一个IDC运营商和云服务运营商的角度去讲我们怎么看待网络,和怎么做网络运维。讲网络的初衷很明显,不管是作为IDC运营商是云服务运营商,做好网络是根本,生存要靠网络,致富也要靠网络。简单介绍一下背景,安畅在全国运营13个数据中心的服务商,同时运营3个公有云的节点,对外通过BGP直达运营商进行互联,在全国几大城市建立了一个网络出口点,大概是这样的规模。

网络跟安全没有什么关系,但是这个网络也不是讲很细节的网工的活,我们是把它抽象一下,从运营商的角落提炼出来,来看网络的特性是什么,我们怎么基于这个特性做运营跟运维。

先给大家看几张分析的图表。先看蓝色的图表,这是我们一个做视频的客户,我们把它的流量提取出来,当然这个数据是经过处理的,不是真实的数据。我们把这个客户的数据,24小时的流量,以一个小时为刻度做一条线,我们取近六十天的数据,就汇成了六十条线。我们看这个图,这个流量的规律是蛮明显的。从每天的零点开始流量开始往下,流量的高峰是中午,第二个高峰是晚上的六点钟之后,持续会有三到四个小时。当中为什么会在十点和十四点之间还有几根稀疏的线,它的峰值也是比较高的,这个维度看不出来,我们换个维度。我们把它的流量按照每天来进行分组,汇聚到星期。可以看到这个客户从周一到周五的流量都是特别低的,一旦到了周末它的流量就会往上增,而且这个差距是非常明显的。这也就说明这个图里在中午有一些线稀疏的也是比较高的,是因为周末它整天的流量都会比较高。

右边第一个图是订餐客户的流量。它在上海垄断了所有商场饭店的订餐,它的流量图大家能推测出来,第一个流量高峰是在中午的饭点,第二个高峰是在晚上的饭点。

左下角的图是上海著名的代驾公司的图,它在晚上八点到达流量的高峰。我们看这个数据,它在每天凌晨五点突然有一个突发式的流量峰值,有两种可能性。第一种它晚上跟外界有的数据交互,第二种它被植入了木马,每天晚上被偷数出去。

刚才说的四张图说明不同的客户有不同的流量波动特征,这个特征是根据业务活动体现出来的,而企业的业务活动又是根据它的经营反应,经营是持续的,也就是说很多客户流量的特征有这样的规律可以去追溯,这个规律合力起来就形成了数据中心出口的流量也是有规律的,这个规律就是通过客户不同的流量规律合成的。

这是一个昆山的数据流量出口图,第一根线是整个数据中心的日流量图,第二根线是这个数据前二十客户流量的汇总。大家可以看到整个数据中心流量走势根据前二十。

刚刚说的这些,我要表达的是流量是有特征的,它可以预测,我们通过预测可以做很多有价值的事情,但是这个结果有些朋友会想,你还需要去说吗?我猜也能猜到,但是这里有一个差别,光靠推测这个数据是没有用的,我们需要通过一些理论、过程推导出来,去证明它,接下来这个数据才能做应用。接下来我跟大家说一下这个流量特征怎么体现出来,怎么使用。

这张图是数据中心每个小时的流量图,大家从肉眼可以看到这张图波动曲线非常的规律,但究竟这个规律怎么描述,我们可以先引入一个统计学的工具叫相关性的分析。所谓的相关性,如果有两个样本是正相关,如果A样本大B样本小叫负相关。我们可以提取一个相关系数,A跟B两个血液相关的程度是怎样的,通过相关系数可以提取出来。但是我去看流量到底有没有规律,到底怎么通过数学证明呢?这里面有一个概念叫自相关。在相关性有一个概念叫延后的序列比较。比如说我把这个每天流量做原始的序列,我把第一个小时的流量去掉,形成一个新的序列,跟原始序列比,就叫一阶延后的正向关系。

下面就是自相关的分析图,我给大家解释一下。这里面的像波峰、波谷的概念是自己跟自己比相关性是1,往后面数12根线,就是当前的流量跟12个小时前的流量去比是一个负相关,而且这个负相关的程度系数非常高,大概到0.7。一般说0.6以上属于相关性比较大的,我们把数字再往后推,数到第24根线,就是指我当前的流量跟24小时后,它的相关系数达到0.8到0.9。这里面还有一个数字更明确,这是流量当前跟自己比,相关性是1,我往后推24个小时,相关系数0.927,92%是相似的。24个小时之后85%是相似的,36个小时81%是相似的。这个数字可以证明流量的波动是非常规律的,并且我们可以预测。

怎么做预测呢?首先我们去看不做预测我们怎么做。很多运营商的场景下我们会做一些出口的监控,比如说一些阈值的监控。我们取一个上限、一个下限,但是这个波动幅度会非常的大,不同的数据中心里面流量不同的时间点、不同的时间维度差别非常大。譬如说我上面有一个数据分析的结论,我把一天的流量取一个平均值,我把平均值做一个标准差,达到四千多,意思就是我每个小时跟平均值比它的差异非常大,所以说均值的比较是没有意义的,这个场景体现在什么时候?比如我们做监控,我出口监控上限写的是五个级,下限写的是一百个,这个波动范围太大了,过滤掉很多平时发生异常流量的可能追溯轨迹,这种监控意义就不大。

我们怎么对流量进行预测呢?刚刚说到了流量的波动性很明显,我们通过数学工具很容易把流量分成几种数学上的模型。第一个就实际流量的小时图,我们统计学里叫观测值。第二个就是把流量统计观测值里的趋势提取出来。第三个是把观测样本图的波动已取出来,这叫波动。最后一个就是指整个序列里面的噪音。其实任何一个时间序列的数据都可以提取成这三个模式,这也是做预测的基础,就是说波动的规律,以及最终的噪音。

在做预测,这个时候的理论并没有我们想象的那么复杂。我们一般做时间的预测,不同行业领域做经济、领域,我们运维上面也可以做预测,在时间序列模型里面也就两大种,第一种是基于视察的,第二种是基于胡尔特(音)法。我们经过反复的测试和论证,我们这里的做法是通过二元去做,通过别的统计分析工具也可以做。在统计的模型再加一个季节的参数叫乘法,就是把自己作为一个乘法放到模型里去。具体预测的模型结果大家可以看下面这些线,下面是我预测的模型把它贴到原始序列上去,我可以把整个原始序列值通过这个模型完全的描述出来,大家可以看到红线跟原始的标记拟合在一起,这个模型已经建出来了,这个建模只需要通过工具拿一个算法就可以了,这个算法大家直接用就可以了,这个数据我们已经调出来的,这个结论是非常有价值的。

我们接下来做预测,在二元里面也就一句话的事情,模型建好直接测就可以了,后面的流量就把蓝色的值做预测值,它的正确性怎么样呢?这是一个残差的分布,比如说我们把预测已经发生了,我当前48小时里面的流量去掉,我根据前面的48小时做一个样本,预测前48小时之后的流量,再跟实际的做比较,比较出来的残差看看它的分布性是不是呈正太分布,这证明准确性非常高。

这些东西说完之后,大家想这些东西有什么用,我可以告诉大家,流量的精细管理。精细管理做什么呢?

第一流量的异常检测,因为流量的波动太大了,我们反复的做大阈值的监控意义不大。我们是这么做的,在预测的结果里面,有一个概念叫执行度。比如说我预测这个流量,我告诉我这个模型,我让你达到95%的准确率,你告诉我这个结果是对的,这个模型会怎么反馈给你呢?它会给你一个上限、一个下限。我们把它分别作为我们监控的上限和下限,我们每天滚动预测,把结果动态地更新到平台里去。这意味着数据中心每个小时的流量都应该在我已经合理到流程范围里面,只要超过我这个范围,超过95%的执行度,这种异常发生了,我们运维就排查。除了特殊的波动情况,一个排查一个准。

刚刚说到在异常检验方面的价值,第二个就在流量复用的价值。流量复用的价值对运营商来讲这个帮助可大了。过去一个数据中心流量采购是非常贵的,这个东西要买多少,什么时候买,什么时候采购,你的使用率会达到什么标准,一般怎么核算呢?只有建立在一定的预测基础上,去做采购、整合,给你带来的经济效益是非常高的,这在流量复用上面。还有给客户做一些独立的监控,因为这个数据对客户也是适用的。另外可以做客户关怀,比如客户产生的带宽,我可以告诉你一个月以后、两个月以后,按照你目前的采购带宽量你的带宽非常吃紧,或者我告诉你买的带宽比你实际使用的带宽冗余多很多,你可以考虑缩减一点。

包括DPI、流量监控都可以通过流量的抓包去做。对数据坚决建档都有很大的价值,但是这些内容属于我们主动管理的价值,在这块我们做了很多工作。

接下来说安畅的一些实践,指在流量管理我们安畅怎么实现、怎么做。

我们刚刚已经讲了我们怎么利用流量预测的结果做动态的监控。第二个是怎么实现总出口的监控。这个图的意思,比如说我们安畅现在有十个数据中心,我们针对不同的线路去看当前在实时跑的时候占比是多少,比如说这个是跑了1%,这个是20%,有的跑50%和60%,我们就开始做总结。这个很简单,我们把流量数据通过三层提取。

第二块是我们怎么去做平台化的系统交付,这个是指标准的产品怎么做的。

用户下单之后,我们有个部门叫交付部门,交付部门会看到这个订单,这个订单里面具体用户的配置是什么,他们会在现场根据资源把用户的订单分配好。全部配好之后,现场工程师就有一个工单出来,他就按照工单做算法的处理,一切都结束之后平台就开始自动装机,最后做好端口的限速,一切做好之后,客户会自动地加入到监控名单里去。

这是订单,把不同的资源分配好,现场的工人一插电,整个系统的安装就自动在平台里产生了。产生完之后客户的端口数据会自动加到监控平台里去,加到监控平台里去,在这边我们点客户的资源交换网卡端口,就可以自动跳到流量监控的平台,这里面就实时把客户流量战线出来,因为我们给客户做流量计费就是通过这个交付来的。另外一些细节的工作,端口限速,有时候客户会有临时的带宽采购,直接由交付在平台里做一个手工的设计就可以的,不需要任何现场工程师的操作。

这是我们整个大网的实时监控,大网实时监控怎么做呢?很多同行会找一些外部估测公司个合作,看不同的线路网络是不是稳定的,延时是怎样的。我们把不同的线路进行交叉监控,我们在每一个C的IP段会买两个IP地址,然后看C端的IP地址是不是问题,再根据不同的分段分成红色、橙色、绿色,不同的点代表这个线路监控,比如上海移动的监控江苏联通的延时是多少,如果在之内是绿色的,在之外,超过量不大是橙色,量大、断网是红色的,实现交叉监控,不需要外部监控的厂商合作。

有些朋友会想,你们是不是在吹牛。我们做的所有东西,我们把这个平台完全打包到产品化,如果有IDC的同行在也边可以跟我们沟通,我们整个平台都可以对外售卖。可能有些人会想,你说了半天就是为了卖你的软件,我想说我们的格局还没有那么低,我们想证明安畅做那么多年,我们真的对这个行业充满了敬畏和尊重,所以我们做了很多工作,我们也希望这个行业大家一起做好,谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2020-03-12 18:10:00
国内资讯 16家企业被纳入电信业务经营不良名单
16家企业因在电信管理机构监督检查中,被发现无正当理由中止对电信用户的电信服务、接入未备案网站、违反实名制规定、不配合调查等事项存在违法违规行为。 <详情>
2020-02-05 16:58:00
云资讯 为企业复工做好保障 腾讯携手生态伙伴推出“在线办公急救包”
一边是发生在医护一线的疫情防控之战,一边是发生在商业前线的企业生存之战。随着疫情的深入发展,除了每天增加的确诊人数牵动人心,疫情对众多企业的影响也正得到越来越多 <详情>
2020-01-08 13:51:35
云资讯 安畅《云管理服务》获高认证 领跑中国MSP市场
2020年1月7日,由中国通信标准化协会云计算标准和开源推进委员会(CCSA&TC608)主办的“云管和云网大会”在北京国宾酒店召开。 <详情>
2019-11-06 17:10:43
云资讯 瞄准千亿级云MSP市场,安畅网络要服务企业上云的“后一公里”
近日,国务院发展研究中心发布的《中国云计算产业发展白皮书》。 <详情>
2019-10-09 17:22:00
人物访谈 【We访谈】安畅赵文轩:顺势而为、强化内功才能在云计算市场立足
云计算市场在经历了10年的彷徨和发展之后,终于在近两年迎来了爆发。据相关数据显示,全球公有云市场规模在2019年将超过2000亿美元。 <详情>