中国IDC圈1月10日报道,1月8日,第八届中国IDC产业大典在国家会议中心盛大召开。本次大会以“新资本 新技术 新格局”为主题,力邀工信部、通信发展司、电信研究院领导,IDC企业、电信运营商、互联网企业、设备厂商等各行业精英齐聚一堂,共同把脉中国IDC行业未来发展之路。其中工信部电信研究院互联网中心主任何宝宏先生应邀出席了大会并发表精彩演讲“关于大数据的几点思考”。

何宝宏

工信部电信研究院互联网中心主任何宝宏

以下为何宝宏演讲实录:

何宝宏:谢谢组委会,很高兴有机会来分享几点我本人对大数据的思考,尤其是2013年以来,出来演讲如果不说大数据就不知道该说点什么。在我看来,我们很多的大数据的研究取得了很大的进展,产业取得了很大的进展,同时我们在很多方面是夸大其词了,有一些问题。谈一下大数据对下一步IDC的影响和自己的一些思考。

在2013年以来,大数据非常的热,也出现了各种各样的观点,有很多观点不能说是错误的,至少可能是似是而非的。比如说我们说大数据很有名的是因果关系转变为关联关系,因果关系、关联关系更高层次是机器不能识别出因果关系,绝不等于说我们不追求因果关系,如果不追求因果关系,人类是不是要从科学的状态回归到蒙昧的状态。这样的逻辑显然是不正确的。还有人说数据越大价值越高,很多这样的观点,大家需要仔细的分析,数据大并不意味着价值就高,数据大是大量的噪音的存在导致结果的失误。我们知道蝴蝶的效应,强调的是个别的数据最整体的影响,不是说数据大价值就高,相反数据大了会产生更多负面的影响。

我们知道还有一些物理学的理论,比如说数学上的不完整性证明,关于数学有限性证明等等,都说明数据多了并不一定是好事。所以数据大了是好事是值得怀疑的。昨天我看到新闻媒体的标题是错误的数据也是有价值的,我实在是没有话可以说了,机器是没有办法识别出来你所识别的结果到底是正确的还是错误的,机器没有办法辨别你的结果是符合道德的还是符合社会规范和法律的,很多事情还是要靠人。

回过来看大数据的定义,大数据像21世纪的石油,是一种战略的资源。大家也说了很多,但是大家有没有忘记石油在人类历史上成为战略资源只有一百年的时间,在人类漫长的时间里,石油根本不是战略性资源,甚至连资源都算不上。直到内燃机的发明,同样的我们在讨论大数据的时候,数据一直是存在的,而不是说到今天我们才想起这个问题来。同样我们认为云计算是大数据的一个内燃机,所以我们在谈论大数据的时候,如果不是用的云计算技术,基本上可以说你做的还是传统的数据分析和处理。

当然大数据的定义就更奇怪  ,危机百科大数据的定义是我们用常规的手段在通常的时间内无法处理的复杂数据,注意这个定义是自相矛盾的。如果你用常规的手段无法在常规的时间内处理的复杂数据叫大数据,也就是说如果你的大数据已经成功应用了,这个东西就不叫大数据了。所以这是个哲学问题,本身是一个自相矛盾的定义。有很多我们认识不足的问题,在时间和空间上对数据的理解是有问题的,数据不是今天产生的,不是由于移动互联网的发展才有了数据,人类历史上一直在跟数据打交道。人类的科学史、宇宙史本身就是数据史,我们的科学本质上是一个对世界不断测量、不断量化的过程,对数据不断处理的过程。最早我们对人口的数据、天体的数据,显然对那个时代的人来说,对那个时代的工具来说它是大数据。所以我们在讨论大数据的时候,一定要加一句,当时的人用当时的工具无法处理的数据就是大数据。当然我们后来又量化了长度、重量、体积、面积我们都要用数据来描述,时间、空间,还有颜色,若干年前颜色是一种主观的判断,而我们现在是一种客观的判断,我们用RGB就可以表示。我们可以对电流、电压、声音、图像不断的进行量化的处理,这是数据的基础。我们对基因的研究,基因更多的研究好像是信息学,我们研究的是基因信息学,量子物理研究的是量子信息学。

2013年获得诺贝尔化学奖的人本身就是做数据处理的,就是如何用计算机模拟海量的化学反应,因为他搞了这个学科,所以他得了诺贝尔奖。整个世界正在比特化,所有的地方都在比特化,所以物理学家说万物皆比特。上帝粒子仍然不是人类物质最基本的粒子,而比特才是我们最基本的粒子,各行各业都在做数据的量化。

数据大绝不是高的价值,我们看人类科学的发展,倒过来说我们不断的测量和量化数据,同时科学的原理,牛顿、爱因斯坦所做的工作,是一个对数据压缩的过程,是对数据提炼规律的过程。所以我们做大数据的目的是为了把数据变小,而不是想把数据无穷无尽的变大。当然回到现在这个时代,在Web1.0时代数据是被动产生的,上网浏览就会留下一点痕迹。到了Web2.0时代我们不仅仅是把数据被动的留在互联网上,还主动的把数据传到互联网上,各种数据都会传。到了移动互联网时代,我们不仅是要主动的传,还需要随时随地的传数据。到了云计算时代,我们觉得还是不过瘾,我们希望把我们的整个硬盘上的数据都搬到互联网上去。到了物联网时代还不过瘾,因为之前是被动的获取数据,主动的采集数据,最后我们还想自动的获取数据,确实是我们的数据越来越大,大不仅是为了小。

我刚才说万物皆比特,比特是物理的。1.1万年前的壁画,三千年前的经书,你能看到你10年前写的Word文档吗,你能看到20年前编的程序吗?或许能找到。你能找到DOS3.1吗?我们的数据都没有了,现在再说大数据时代,可是现在数据的存储介质的寿命实在是太短了,数据根本很难保存下来,或者很难低成本长期的保存下来。云计算处理海量数据,我们需要另外一个介质,低成本、长寿命的数据存储的技术,否则这个活白干。我们可以想像100年以后的人类,当在座的各位成为了老爷爷、老祖宗的人的时候,他们会笑话我们他们还称为大数据时代的人,他们什么都没有留下来。所以比特是物理的,我们需要研究如何保存下来的物理介质。做IDC的人非常有好处,不管数据有没有用先存起来。

从人类的角度说,确实每一次数据的激变会引发人类的一场革命。我们看到的十万年前人不知道哪根神经搭错了,忽然会说话了,结束了我们人类相互之间传递信息的时候靠基因、靠模仿的历史,我们开始靠话音传递,我们迎来了人类超越动物主宰世界的时代。五千年前数据不能简单的用完就完了,需要存储,需要更广泛的传递,所以我们发明了文字。有了文字才有了历史,大家想想如果没有文字,根本不知道几千年前发生了什么。人类文明是靠文字来传递的,也就是说我们需要长期的存储的介质。几千年前苏美尔人的一些东西,我们看不到一些文字了,看到美国1969年登月计划的数据全都出不来了,原因只有一个,就是生产能够阅读这个存储介质的计算机公司早就倒闭了,数据存在那没有办法,我们丢失了很多数据。

到了公元大概一千年前我们学会了印刷术,迎来了数据工业化、批量化生产的时代,这个时代带来了更大的翻天覆地的变化。大家可以想像迎来了宗教改革、文艺复兴、工业革命和信息产业的出现。如果说前几次的信息技术的革命引发了人类社会制度的变革,我们从部落社会进入了原始社会,进入了农耕文明,到了工业时代。信息时代今天走了100多年的信息产业,是不是已经迎来了新的文明,看起来还不是。如果从人文的角度来讲,觉得我们的信息产业做的很牛了,还没有,差的很远。我们知道工业革命迎来了人类制度的变革,迎来了哲学思想、物理思想大发展的时代,人类制度根本没有受到信息技术颠覆性的影响。人类社会的制度,我们的哲学思想,几十年来没有大的变化。所以如果从社会学的角度来看,信息革命还算不上一场革命,我们还有很多的路要走。

回到第二个议题,关于大数据和数据中心的议题,确实是数据中心以前叫机房,机房在PC时代没落了。年龄大一点的人知道机房,后来让数据中心崛起的第一个是。com,那个时代我们终于不叫机房了而叫数据中心,叫数据中心这个人非常的高明。我没有查到什么时候谁把机房叫做数据中心了,在那个时代,电信业和计算机界正在为通信业和计算机网络发生着争执。在座的要么学过计算机网络,要么学过通信,上大学的时候搞不明白数据通信和计算机网络有什么区别。当我们的机房原来属于传统的计算机领域的人还是叫数据中心的时候很伟大,因为数据两个字好像是专属于电信业。数据中心第二次爆发就是云计算,可以说有了互联网的兴起,有了云计算式的数据中心确确实实是非常火爆。

刚才说数据中心的定义实际上是我们抛弃了计算机这几个字,改成了数据,因此我们强调数据比机房这个说法更重要。确实是我们迈出了伟大的一步,但数据中心又是计算机,又有人把它说回来了。回顾计算机的发展史,今天的数据中心像极了五、六十年前的大型计算机的机房或者是计算机,因为那个时代的计算机也是占地好几间房子,重达好几十吨,一开机就可能停电,整天有人蹲在里面做维护。我们的数据中心在产品化或者服务化方面,竟然还只是几十年前的水平,我们还有很长的路可以走。当然了从大数据的角度,我们对IDC的定义千奇百怪,各种各样的定义都有。从数据的角度来定义IDC,如果我们强调数据就可以这样说,IDC就是一组大数据用来产生另外一组大数据的工具而已。这是搞基因的人来说的逻辑,如果我们强调数据,IDC只是一个工具,只是一组大数据产生另外一组大数据的工具而已。

再看看互联网的终端或者说机房的演进或者计算机的演进,大概五、六十年前工厂时代,大型机的时代,我们需要硕大无比的机房,我们需要无数人钻到系统里面去运维,搬也搬不动,人在机器里工作,今天的数据中心就长这个样子。后来有了小型计算机,越来越小型化,像极了今天的集装箱式的数据中心,我们迎来了PC的时代,可以不是在办公室,可以搬回家里坐在前面工作,又像极了微模块化的数据中心。我们迎来了PC的时代,是不是整机柜或者更小的数据中心,我们可以清楚的看到,实际上数据中心的发展到微型机到掌上电脑时代,到可穿戴时代,到嵌入时代的可发展的轨迹发展是一模一样的。所以我们还有很大的空间的发展,今天数据中心的水平差不多确实是六十年前计算机的水平,当然很多东西正在发展变化。

最后看网络时代,TCP/IP的发展产生了互联网,各种各样设备的互联,可以连接计算机,连接智能手机、电视等等。WWW的发明不仅仅实现了设备的互联,还实现了文档的互联,我们可以互联各种各样不同的文档。但是我们连文档的目的仍然是为了连数据,我们需要的是数据而不是文档。我们需要将数据直接连起来,最近两年关于围绕以数据为中心构建未来互联网技术正在蓬勃发展,包括早期的CDN的技术,DCN等等技术的发展。今天的云计算非常像四十年前的计算机网络,是一朵一朵云彩,四十年前我们是一个一个的网络,谁跟谁都不连,所以我们后来发明了互联网,把它连了起来。我们必须发明一种技术将云连接起来,云连接起来就是为了连接IDC.现在的互联网是以网络为中心构建的,有人说我们修路比较困难,所以看我们城市的发展、道路的发展选点选的都是中心。当我们修路非常费劲的时候城市一定是建在交通最发达的地方,而今天当我们修铁路、公路、民航等非常发达的时候,我们选择城市选择的点不在于交通是否复杂为基础而选点,而是以资源是否富足为基础的。我们未来的网络结构一定是围绕着数据中心,而不是围绕着网络来转的,因为我们修路的成本已经远远的低于资源选择的成本。所以未来的互联网架构一定是以IDC为中心构建的网络架构,可以说做IDC的人的未来充满了前途,充满了希望。

我就说这么多,谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-09-18 16:58:49
新闻动态 2023云天大会|无线电赋能大数据产业高质量发展分论坛:探索无线新动能 助力数字新高地
随着技术的创新与进步,无线电在越来越多的领域得到了广泛深入应用,助力众多产业转型升级 <详情>
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-13 10:31:00
国内资讯 从碳足迹到竞争力 数据中心创新设计趋势前瞻
数据中心是数字经济的核心支撑,设计是数据中心建设和运营的第一步。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>