中国IDC圈12月26日报道,12月20-22日,第十一届中国IDC产业年度大典(IDCC2016)在北京国家会议中心隆重召开。本次大会由中国信息通信研究院、云计算发展与政策论坛、数据中心联盟指导,中国IDC产业年度大典组委会主办,中国IDC圈承办,并受到诸多媒体的大力支持。

中国IDC产业年度大典作为国内云计算和数据中心领域规模最大、最具影响力的标志性盛会,之前已成功举办过十届,在本届大会无论是规格还是规模都"更上一层楼",引来现场人员爆满,影响力全面覆盖数据中心、互联网、云计算、大数据等多个领域。

会上,中国信息通信研究院主任工程师  郭雪出席本次大会并为当天的IDC上市企业大会做 《可信云IT风险管理的思考》主题演讲。

郭雪

中国信息通信研究院主任工程师  郭雪

以下是演讲实录:

郭雪:大家好,我是中国信息通信研究院的郭雪。我们这个团队最开始就是从可信云开始的,所以我今天从云服务市场开始介绍。

这个片子是出自我们院今年的白皮书,可以说云服务市场经过前两年快速发展之后,已经进入了一个平稳发展的阶段,大家可以看到红线就是增长率,增长率已经开始平稳,可以说已经往下走了。在2015年,全球的云市场规模达到了522.4亿,我国包括私有云、公有云在378亿元的规模,云市场规模在发展初期比较复杂,有很多原来做设备商转型去做云服务,有些是运营商转型做云服务,可能有些是创业公司,大家差异非常大,可能有些重点是在政企客户,有些重点在小微客户,有些体量非常大,有些体量比较小,差异非常大,面临这样比较差异化的环境,我们也在想如何帮助用户选择云服务,所以说在2014年的时候我们提出了可信云,大家有的有一些了解,当时提出的目的就是帮助用户去选择可以信任的云服务,本着这样的初衷,当时我们制定了三系列的标准,包括数据安全、服务质量、权益保障的标准评估指标,对云服务进行筛选和评估。

从2014年到现在,经了三年,我们评估了六批次,150多项的云服务,现在市场上比较大的云服务我们都已经评估过了,整个评估的过程就是下面介绍,包括文档的审查、技术测试。在整个评估过程中有一个非常重要的一项内容,就是可用性监测,刚才有专家也有介绍,就是服务质量的问题。对所有通过我们可信云的云主机,我们会对它的可用性达到多少会有持续的监测,这是我们今年可信云大会上发布的数据。这个数据是所有通过可信云认证的七十多个不同物理节点的不同主机,不同厂商的虚拟主机可用性在我们监测下来平均值是这样的趋势,最低点有94.11数值,可用性在我们监测来看并不是特别的高。可用性达到94%,意味着一个月内有40多个小时不能用,这其实是非常可怕的一件事。

达标率是服务商在对外提供服务的时候会签署一个服务协议,会对外承认他的可用性是多少,可能是99%,可能是99.99%等等,这个达标率的考核是实际监测值达到它对用户承诺值的概率只占到了24%,也就是说在云服务商提供云服务的时候,只有24%的云服务是达到对用户的承诺,也就是说它的稳定性和可用性,其实我们理想非常高,但在实际监测情况来看,并不是特别的理想。

这背后说明了什么问题?我列了今年的主要云服务的事故,包括宕机的事故。在提供服务的同时会面临各种各样的风险,服务不可用,服务可用性质量偏低,也不是大家想看到的中国的网络环境就是这样的,网络环境是不可控的,包括运维人员的误操作,可能运维人员加班到十二点,眼花,误删块都是经常发生的事情。都是不可避免的,风险是非常多的。我们如何才能去降低这个风险,也就是说降低云服务的运行过程中的风险。第一种方法就是不停地提高自己的容灾能力,提高自己的架构能力,包括运维能力,但是这意味着它是一个比较烧钱的行为,它投入会非常大。我们就在想有没有第二种方式,是通过一个保险的方式。通过保险的方式能不能降低云服务在运行过程中的风险,我们提出了云保险的概念,希望能把它作为一个云服务控制风险的手段。云保险概念的提出主要是因为云服务商目前很多是从小微客户转向行业客户,行业客户对云服务不可用非常重视,哪怕一秒钟、几毫秒不可用对他们来说都是非常大的事故,所以他们希望有这样一个保险保障机制,去保障云服务在运行过程中的整个稳定性、安全性。

下面我对云保险做一个简单的介绍。云保险最早也是在2014年打算去做,2014年9月份启动相关的工作组,在2015年上半年做方案。保的内容就是服务不可用,您的平台可能会出现各种宕机,还有一个内容就是数据安全,您的数据发生数据泄露,数据丢失等等这方面的内容。主要保障内容就是可靠性、数据安全。在2015年5月份的时候,我们云服务商版的保险方案就确定了,云服务商版的保险方案就是由云服务商买保险,真的出险之后由保险公司直接赔给客户。我们在2015年7月份的时候,也是第一批的投保单位已经签约了,包括电信、联通等等。云服务商版的保险提出之后我们又在想是不是可以提出用户版的保险,由我们的政企客户、金融客户直接针对云平台购买保险,当云平台出现故障的时候,可以直接由保险公司索赔。我们目前的这个方案也已经制定完成。我现在对这个保险的整个方案做了简单的介绍。

对于投保来说两个非常重要的环节一个就是风险评估,还有一个定损。风险评估就是在您投保前需要有一个第三方的机构去评估一下您出险的概率是多少,因为保险公司也不傻,他不可能对所有的云服务商都投保,比如说云服务商昨天才成立一个客户都没有,保险公司也在想能不能承保,这个是由中国信息通信研究院去做。还有一项是定责定险,出险之后保险公司应该赔给服务商多少钱,如何去定责定损,这也是我们的一项工作。去判断责任方在哪儿,判断出险应该赔多少金额都是我们的工作。

我们整个的风险评估、定责定损从可信云一百多项的评估经验中积累过来的,也就是积累经验中得出风险评估的一次性公式。

我下面的内容都是对风险平均做一个简单的介绍,很多在座的专家更为关心到底风险评估评的是什么,什么样的数据中心,什么样的云平台才是低风险。我们对投保有十几二十家的云服务平台作为整体的风险评估也进行了总结和思考。一个是数据中心,还有云平台的个架构稳定性,风险评估也是围绕这两个点来进行。整个风险评估流程会去现场机房看,包括对证明文档的查看,包括UPS等等都会实地地去看,与此同时还有一项否长重要的工作,我们会看故障日志,根据实际的故障情况得出风险值。在这儿我给出了一个可用性的评估方法,这个评估方法已经申请专利了,主要是根据可信云的一百多个云服务的可用性平均得出的经验评估方法。它主要是考虑红色列的那个公式,主要考虑机房的可用性、网络的可用性、软件的可用性、服务器的可用性,综合监控值,因为我们刚才对云主机的可用性是有监控的,综合监控值以及结合这个用户数对这个云服务商的风险系数会有一个评估的方法。

对于机房的风险评估方法,我也列在上面。我们会参考机房实际的级别,因为大家很多都是IDC领域的专家,我们要去机房去看它是不是达到T3+或者T4的水平,我们会看它的机房环境、位置、建筑结构,最最重要的就是包括对它的电力模块、市电是几度、柴发,还有空调的考察。

对于服务器可用性、网络可用性、软件可用性来说,这三方面的可用性考察,主要是参照设备的具体型号,不同的型号对可用性有影响。一个是可用性架构,您可以允许多少服务器出现鼓掌,对您架构会有一个考察。

对于数据存储持久性的评估方法,这是什么意思,就是我们会去评估云平台丢数据的概率是多少。这儿我也给出了一个经验积累的计算方法,就是下面的公式,其实核心总结起来一句话,就是我们会去判断您硬盘的具体故障率,还有存储架构。主要就是考察一块数据丢失的时候,在数据恢复的这个时间内,其他副本都丢失的概率。我这边有一个W是红色标记,在我们看来对各家来说最核心的技术就是数据恢复时间,考察这个服务商故障响应、故障检测能力,快速恢复故障的能力,其实是对数据丢失非常重要的环节。

这是另外一种存储方式,就纠删码冗余,这个不具体展开介绍。

我们对现在已经投保的企业进行现场评估,评估包括数据中心的走访,整个架构的深入交流,包括对一些高可用是怎么做的。通过十几家的风险评估,我们得出了一个到底什么样的云服务,才是低风险的,我们也在思考这个问题,到底什么样的云服务对保险公司来说是我可以承保的,是风险可控的这样一个云服务。

第一个就是我们发现一个共性,在这两年当中出险比较低的云平台都是比较大的云服务商,它的规模体量都已经比较大了,包括企业数可能都已经上万,包括虚机都是上万,包括数据中心可能选择了运营商的数据中心,可靠性会相对高一些。另外在机房基础设施方面,也去遵循T4的设计标准,各方都做的2N的冗余。

对于云平台来说也做异地多活,在高可用会留出30%以上的资源余量,数据丢失,有些家用的3副本,甚至有的做4副本,都可以做到高可靠保证数据不丢失。在运维管理方面,就是一个故障的响应方面,需要对平台有一个监控,需要可以快速地对这个异常做处理,包括有一个比较规范的事件管理和问题管理流程,包括你现在还是人工巡检,需要4小时巡检,当很多家做了自动化巡检。包括对故障的定期演练,都是通过风险评估来说做的比较好的厂商都会做定期的演习,包括人员资质,都会有比较高的预备人员资质。

可以说通过这种保险机制,我们在思考是不是可以通过保险机制去建立云服务商的良性自循环。刚才也有专家在说云服务商如何才能降低风险,无非就两种手段。第一个手段就是提升自己的各种软硬件实力,但是这个手段比较烧钱。第二个手段你可以引入保险,通过保险的机制来降低你的风险。真的出险之后由保险公司把真金白银赔给你的用户和你,通过这种手段降低你的风险,同时因为引入保险之后,必须会有两个的环节就是风险评估和定责定损,风险评估可以帮助你事前进行预判,定责定损也是帮你去追查事故地,降低了整个的风险。

这两年云保险的试运行,我们发现不管是云,还是IT服务,风险一直都有,我刚才为什么一直在强调运维人员误操作,因为在实际的定责定损过程中,我发现一半的事故都是人为、误操作造成的,风险是不可避免的,包括软硬件有故障,包括网络不稳定,包括人员的误删等等,但是整个IT风险管理,整个规范化差一些,现在需要一套比较完整的IT风险管理的一套流程和规范,包括一些法律环境的规范,包括一些政策加强监管,以及引入保险保障机制这样一种手段。

目前在国内外来说,已经形成了一套相对健全的法律环境,对国外来说,加拿大办法了相关的电子文件管理的法律,在德国也有一些网络安全的相关法律,对我国来说,今年10月份刚刚发布的《网络安全法》,这个大家比较清楚,明年在6月份就要实行,这其实是对整个网络环境一个比较大的法律上面的支持。

还有一个手段,如何去健全整个IT风险管理的环境,通过IT保险。其实不管是风险评估,还是风险定责定量,都是事前和事中,只有保险是对事后的保障,通过保险可以完善整个IT风险管理的链条,最后通过保险可以把云服务商,包括IT服务商的损失降到最低。

在这儿我列出了,通过IT保险对服务商和客户来说,其实都是一个非常有好处的事情。对客户来说,可以提升客户体验,包括可以选择风险可控的服务商,对于提供商来说,风险评估可以事前对风险安全隐患进行预判,事后可以定责定损,帮助它查找问题的原因在哪儿,最重要的是他可以提升用户的信赖。对整个的IT保险,我的介绍大概就是这样,我们的相关工作已经启动了,包括各方面的风险评估标准,包括相关的保险保障条款的制定,如果会后大家感兴趣,我们再交流,我的介绍就这些,谢谢大家。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-07-14 19:37:52
云资讯 “小白”变“大虾”,容器竟能如此部署!
2016年12月,可信云发布了国内首个容器技术产业发展白皮书,全面分析了容器技术的特点和优势,介绍容器技术主要的应用场景以及未来发展方向,在为业界进一步了解容器技术和 <详情>
2017-07-14 19:26:02
云资讯 网安大咖畅谈云安全之程度 ——做最酷的事 让青藤“御”云
为进一步促进云计算创新发展,建立云计算信任体系,规范云计算行业,促进市场发展,提升产业技术和服务水平,由中国信息通信研究院、中国通信标准化协会主办的"2017可信云 <详情>
2017-07-14 10:04:30
云资讯 可信云Openstack和容器云论坛再曝亮点——新评估方案即将问世
为进一步促进云计算创新发展,建立云计算信任体系,规范云计算行业秩序,提升产业技术和服务水平,由中国信息通信研究院、中国通信标准化协会主办的2017年“可信云大会”将 <详情>
2017-07-13 09:56:48
云资讯 大咖云集 精彩即将呈现 可信云金牌运维论坛等你来!
为进一步促进云计算创新发展,建立云计算信任体系,规范云计算行业秩序,提升产业技术和服务水平,由中国信息通信研究院、中国通信标准化协会主办的2017年“可信云大会”将 <详情>
2017-07-11 19:33:47
云资讯 网安大咖畅谈云安全之杨义先教授 ——从《安全简史》到云安全不简单
编者按:为进一步促进云计算创新发展,建立云计算信任体系,规范云计算行业,促进市场发展,提升产业技术和服务水平,由中国信息通信研究院、中国通信标准化协会主办的"201 <详情>