中国IDC圈9月2日报道,2013年9月2日,2013华为云计算大会在上海世博中心盛大开幕。本届大会以“精简IT 敏捷商道”为主题,邀全球云计算技术领袖、知名企业高层、行业权威和专家学者共同分析探讨云计算产业的发展。华为高级专家、ACE杰出科学家杨强先生出席大会并发表演讲。

以下为杨强先生演讲实录:

杨强:各位领导、各位嘉宾,大家好!下面我就和大家分享一下我对大数据的见解。

我们知道,大数据的到来有点势不可当的形势,为什么到现在我们看到的大数据和以往的数据会有很多的不同呢?大家知道数据的到来速度要比硬件的变化速度快得多,所以现在就有这样一个名词“新的摩尔定律”,近几年我们产生的Digital数据其实比历史上以往人类所有数据总和还要多,这是一个非常奇特的现象,这个现象也为我们带来了一个前所未有的机会。我们不妨回顾一下人类由数据所带来的一种变革,包括在我们的生活也好、我们对科学的追求也好,几千年前,人类就对大自然有一种描述的欲望,这种欲望首先是实验科学,就是通过一些观察把它记录下来,这种自然现象就让我们知道对于早期的哲学、科学都有很大的推动,但是几百年以前理论的科学就出现了,拜访说牛顿定律、各种各样的用公式、数学来描述我们的自然界自然现象。随着计算机的出现,这种理论科学就被更多的实验科学所代替,这种实验科学是新的实验科学,我们叫做计算科学,可以做很多的Simulation,但是发展到了今天,我们看到数据是我们的主体,我们被各种各样的数据所包围,要在数据里面挖掘知识,通过数据指导我们的决策,这就变成了今天的一个主旋律,所以今天我们叫做数据密集型科学。

随着大数据的到来,随着这样一种新的科学时代的到来,我们也面临着很多新的挑战,这里总结一下我们所看到的一些挑战。大家知道,大数据的大不仅仅是包括数量的大,也包括这个数据来势之凶猛,同时也包括数据种类的繁多,比如互联网的数据、移动的数据、手机的数据、个人的数据和企业的数据,如此之多,如此之大,如此之快的数据到来为我们提供了哪些新的计算上、商业上、业务上的挑战呢?我们把大数据和常规数据放到一起来看,可以看到大数据的范围是非常的广,它的模态也是非常的多,还有很多需求是来自数字之间的关联,它是一个不断发生的数据,所以并不能孤立地、单独地来看,我们把这个问题叫做从密稀疏的矛盾、冗余缺失的矛盾,动态静态的矛盾,显示与隐藏价值的矛盾,把这些矛盾展现在桌面上就可以很清楚地看到大数据和传统数据的区别。

首先是我们对数据本身的描述,也就是数据消费模式的形态是与以往大有不同的。现在我们所谈的大数据包括各种各样的复杂结构、有图的数据、超图的数据、各种各样的原数据、时间和空间上展开的数据、结构化和非结构化的数据、包括半结构化的数据,我们把各种各样的数据合在一起,怎样能够把它们关联起来,怎样能够充分描述好,放在我们的云里面,放在我们的计算架构里面,这是我们的第一个挑战。

第二个挑战就是当我们有了这样的数据、有了云这样的架构以后,我们如何能够把它们的价值挖掘出来,能够把数据变成真正的财富?也就是说我们每个人都可以拥有很多数据,但是当我们缺乏一种挖掘能力的时候就不能把这个数据变成我们的行动。我们可以有很多营销的数据,可以有很多用户的移动数据,怎样能够变成我们的决策,今天这样的一种产品是向这样一种用户推销还是向那样一种用户推销,这样的决策是我们数据挖掘的一种目标。

其中一个非常关键的东西就是大数据带来的需求,这是一种关联的需求。我们可以看到在传统小数据的情况下过多地依赖于人的智能,由人来解释这个数据,通过理论模型、通过因果关系,但是当我们有了大数据以后,这种数据的关联很多都可以自动形成,就像一个巨大的机器,当我们有了不同的部件以后,我们的结果就会自动地产生,通过不同数据之间的关联才是大数据真正的难点所在,也是大数据真正的价值所在。现在可以说多数公司在数据的关联和整合上面并没有非常好的解决方案,这也是我们看到下一步将会有很多新兴的解决方案、新兴的成果出现的原因。

实际上很多数据都是没有意义的,我们看到的数据都是一些数值,都是一个数据流,都是关于某个单独单位、单独属性的波动。这样的数据实际上对于我们价值是非常少的,我们应该有这样的能力由我们的专家、由我们的人员、由我们的实用体赋予数据意义,这种赋予是需要很多工作的,这种工作就叫做数据标注。一个数据有了很多标注我们才能在里面挖掘足够的价值,就好像我们在搜索引擎、搜索网页的时候把一个辉瑞打进搜索引擎,之后会点击我们要的Hyper-Link,点击的时候我们已经在无意当中为数据做标注了,我们在告诉搜索引擎哪些是我们关心的数据,哪些是我们不关心的数据,同理,我们在电子商务和移动互联网上面也非常关心,当我们的数据能够得到有用的标注,能够在里面得到价值,如何能够得到这种价值呢?现在学术界和工业界已经在多方面进行了研究,比方说有一种技术叫做脑机计算,就是通过给人有价值的回馈帮助人有足够的激情继续持续地为数据做标注。

刚刚讲的标注和一种新的挖掘模式是非常相关的,这种模式就是我们的挖掘和我们对数据的学习并不是一次性的,而是一种持续不断的,叫做Life-Long,终身的挖掘,终身的学习,这就使得我们对传统的数据挖掘和机器学习的理论算法模型都要有很大的改变,这也是我们做研究的出发点之一,如何能够进行终身的学习和不断的挖掘。

数据的可扩展性、基础设施的可扩展性和算法的可扩展性也是非常非常重要的,刚才几位讲者都说到今天我们还远远没有做到实时的对数据的处理,现在从每天的几个分钟的响应,再到将来几个比特的响应,这是我们最后的目的,但是今天很少有企业和应用能够达到这样的效果。

另外实践当中也可以有很好的架构、模型和应用,但是在理论上也要建立一个很好的理论模型来支持这个大数据的发展和算法,比方说在数据小的时候可能有很好的分类,但是当数据大的时候很多结论都要被推翻,比如很简单的一些算法在大数据的情况下能够表现出非常高级的算法相差无及,这种现象我们要怎么解释呢?当某个算法我们认为数据大的时候,这个算法的速度是和数据的量成正比的,但是当过了某个坎的时候,我们的速度反而能够加快很多,这是怎样的一种现象呢?很多新的现象都有待于我们解决和发现。

这里我想举一个例子,就是用户模型的学习,我们知道这个在很多企业都是非常有用的,不管是从电商、移动互联网还是智能手机到智慧手机。大家知道今天每个人都有很多的设备,比方说从手机到穿戴再到未来的Google Glasses,这些都为我们提供源源不断的数据,现在我们缺乏的是源源不断的算法真正把数据变成有用的智慧,使得现在所谓的智能手机和智能设备变成未来的智慧设备和智慧手机。这样的一种智慧的设备可以为我们做什么呢?可以观察用户的行为,可以模仿用户的动作,某些时候可以替代用户、帮助用户主动地解决问题,进行终身的学习,随着用户的成长而成长,变成用户的终身伴侣,最重要的是可以帮助用户解决复杂的任务,能够和用户自如地交谈,能够为用户做实时的推荐。这样的设备我们舍不得扔掉,它会随着我们的成长而成长,变成我们的好朋友,这种成长就是在壮大我们的大脑,我们可以用这样的数据既能支持企业的运转,又能支持各种各样不同的应用,比如银行、智能家居、穿戴设备等等之类的,这种数据又能让我们的大脑不断壮大。

总而言之,大数据最重要的一维就是在Value上面,大数据和传统数据的不同表现在很多的点上,包括数据的复杂性、数据的可关联性,这些不同到最后都要反映出它在价值上面和传统数据是有大大的不一样的地方。这里用了一个简单的例子——用户刻画,还有很多其它的例子,以后有机会再和大家分享。

谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-09-18 16:58:49
新闻动态 2023云天大会|无线电赋能大数据产业高质量发展分论坛:探索无线新动能 助力数字新高地
随着技术的创新与进步,无线电在越来越多的领域得到了广泛深入应用,助力众多产业转型升级 <详情>
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>