为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办,大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。

会上,来自工业和信息化部的领导,我国众多优秀大数据领域服务商、行业应用客户、研究机构、地方大数据主管机构的领导和专家,将对大数据政策、产业、技术的现状与趋势等内容进行交流探讨。

来自中国信息通信研究院云大所所长何宝宏为我们深入解读了《大数据的风向-2019》。

1

大家好,我每年都会做一些对大数据的解读,今年很有压力,因为今天上半场姜主任关于产品评测的情况就做了分析观察,后面还有六个小伙伴,他们针对具体的方向做了展望,所以作为中年大叔,夹在中间不知道该说什么,尤其他们没告诉我今天下午要具体发布什么东西。

作为中年大叔我做两个基本的判断,第一个判断就是整体科技,尤其信息产业进入了滞胀期。最近很少有新的技术热点出现,其实大数据热潮早该过去了,但是好像没有能替代它的,后面出来的人工智能、区块链,也讲很长时间了。很明显的一个趋势:整个行业的技术创新,尤其是重大的技术创新处于相对停滞的阶段,也给我们做数据的机会了,因为你不需要更新的东西了。

第二个判断,大概是三个观点。以前我们讲大数据,主要是人通过购物、社交网站,产生以人为主的数据。现在新发现的数据里面越来越多的来自机器和物,我们要注重数据属性的变化,来源的变化。另外以前或者现在很多人谈数据的技术和发展、产业,现在我们能明显的感觉到,谈论大数据的时候,关于风险、道德、管理方面的问题越来越多,我们谈完正面的应该反过来看看背面是什么东西,这是技术发展的普遍规律。

前几年都是谈好处,过几年就说有问题,从来都是这样,表明我们的大数据发展进入了一个新的阶段。以前我们做大数据讲讲故事就可以了,现在必须有干货了。大部分人都讲人工智能、区块链的技术,剩下的还在做大数据,已经整整七年了。坚持七年不容易,为我们自己鼓个掌。

我们知道未来最重要的战略资源是数据,说了很久,数据是21世纪的战略资源,像石油一样。这个话你得反过来想,石油在20世纪之前好像根本不是战略资源,可是石油在地球上存在了上亿年,说明什么?说明它要成为战略资源还需要具备技术条件、应用条件,只有在20世纪的时候石油才变成了战略资源,同样技术也一样。我们需要数据开采,刚才已经提到了,数据的来源来自人。下一步我们应该更多地关注数据的问题,人的数据和物的数据差别很大。

另外围绕技术层面,包括各种各样的数据文化,治理、资产方面的问题。在大数据里要生存,要不你会采矿、采数据,要不会炼数据,要不家里有矿,冶炼,要不有应用场景,有钱买也可以,所以流通资产化、证券化、开放交易,我们要关注。既然是资产、资源,一定要流通,当然流通之前你要把资源变成资产,上午已经讲过这个问题了,如何标准化,怎么应用。

2

上面我还写了两个字“休眠”,其实我们讲生命周期我觉得缺了一块,数据是如何老去的、死去的,哪些数据应该清除掉,哪些数据应该进入存储阶段。这一块讨论得较少,我们只关心它的诞生、成长、应用,从来不关心老去的问题。你面对的问题是数据化老龄化社会的问题,大量用户数据怎么办?facebook3个月之内87%的数据基本上就不用了。我们不能只考虑前面几个生命周期,我们的生命周期还没结束。

我们面对的困境是什么问题呢?人类跟动物的区别是,我们创造了一个精神的世界。在物质世界之外构造了精神虚拟的世界,人跟动物的区别是,我们人会编故事,我们活在故事的世界、精神的世界。我们今天面临的空间是什么?数据产生了,我们又出现了新的世界,这是一个虚拟的世界。在这个世界里,跟今天的精神世界完全不同的是,比特是这个世界的原子,数据是这个世界的分子,几乎每个人都在这个世界里有自己数字的化身,每个人都必须连接到社交网络上,必须时不时的在社交网络里说几句话,如果你不连接虚拟世界,不进入虚拟世界,你好像不存在一样,所以你必须要刷存在感,每个人必须在虚拟世界有自己的数据化身。

我们面临的困境是,在虚拟世界里的每个人有无数化身,我们不断的解放人性,让我们更加自由、开放,但是虚拟世界的化身,那个镜像好像跟奴隶一样,你化身在平行宇宙里怎么样你不知道,有很多孪生镜像,这个逻辑在工业互联网尤其广泛。在这个虚拟世界里,算法是这个世界的运行基本规则,算法是这个世界的秩序,世界的造物主不是上帝而是工程师,我们工程师犯了错误,那个世界会犯更大的错误,大概是三体的逻辑。

我们出现了一个新的世界,既有人又有物,未来十年最奢侈的奢侈品会是什么呢?我们最珍贵的东西会是什么?隐私。恐怕未来十年,我们用多少钱都很难买到隐私,因为我们现在越来越处于一个没有隐私的时代。20年前在互联网上是匿名的,有个著名的漫画,你可以随便做任何事,当时你即使知道了电话号码邮件也很难找到这个人。今天知道你去过的三个地方,基本上就能推断出来你是谁,我们活在一个没有隐私的世界里,隐私正在成为这个时代的奢侈品。

怎么办呢?没有办法,我们现在正在成为裸猿。我们每个人曾经是一个独立的算法,因为每个人都有大脑,曾经每个人都是独立的生化算法,现在我们变成只是“数据源”了,因为不需要你做算法了。我们购物,出门导航,更愿意相信机器而不相信自己了,每个人越来越不相信算法,越来越像数据源。我们越来越相信电子算法而不是数据算法。

围绕隐私的时代对我们世界的影响很大。其实整个社会运行的很多规则是建立在人的记忆算法不太好的情况下的。我们表扬人记性真好,因为这是稀缺品。我们发明了计算技术、文字、纸张、书籍,就是弥补人记性不好的问题,所以见面打招呼“你还记得我啊”,很幸福。现在我们是不是有困境,虽然我把你忘了,但是机器把你记住了。也许在未来见面打招呼时机器把你忘了,那是一种幸福。因为几千年的研究技术都在朝着一个方向在走,都是如何记住一个东西,更好的存储、更大的容量,我们从来没有想过如何忘记一个信息,如何更好的消灭一个信息,我们只能通过管理的手段。原来发版面需要交钱,现在删帖子需要交钱,人就是陷入了这样的困境。虽然你什么都记不住,但是外界什么都记住。如何忘掉也很重要。

隐私保护的问题很明显。以前我们觉得隐私保护要靠法律、管理,这个没问题。最近一两年,我们清楚得感觉到,我们的隐私保护、数据保护、数据流通不仅仅要靠管理和政策,更多要靠技术手段。纵观技术的发展,面临着新的问题,人的第一反应是用传统方法和管理方式来解决问题。第二反应是搞不定,必须发明新技术,所以我们看到群签名、环签名、差分隐私、区块链、同态加密、零知识证明。文科生把法律法规相关的事情干完之后,剩下就是理工科正干的事,技术正在逐渐替代管理方面的工作。

保护隐私为什么这么难?业界每天都在讨论,大数据正在经历七年之痒。我觉得首先是原罪的问题,互联网整个免费模式就是建立在消费用户隐私的基础上的,以用户隐私为代价的。为什么免费?是、因为你必须出让你的隐私。我们的大数据要做用户画像,用户画像是中性词,没有好坏,只是在给你画像。如果不加道德方面的限制,必然会出现大数据杀熟的情况。我们经常也会做犯罪分子画像,这个意义是不一样的,明显我们面临着新的问题。

国家安全、用户隐私、便利性这三者之间有一个不可能三角形的问题,国家安全、用户隐私和便利性方面,三者只能取其二。保护用户隐私必然会带来便利性消失的问题,我们始终在这个不可能三角形的问题里绕圈。

我们的数据主要是人产生的,我们最关心隐私保护的问题,所以每个大数据好像都在侵犯隐私似的,事实不是这样的,我们发现数据是资产,从不同角度看可以得出不同的结论。大数据因为数据太大了,区块链对应的价值太高了,。果是价值数据我们用区块链处理,隐私数据呢?比如说隐私计算,个人脱敏等等。我们的数据究竟如何分类?用什么样的维度分类?各类数据分类的维度完全不一样,里面存在着这个交叉的问题,我们每次对数据分类的维度都不一样,导致我们的理解千奇百怪,但是无论如何我们正在不断完善整个数据的拼图。因为我们拼得还是乱七八糟的,目前我们的认知还乱七八糟,还处于大航海时代之前的原始状态,所以很乱,以为隐私数据就代表了一切数据,隐私数据之外还有其他的吗?

数据语义不同技术也将不同,我们可能要专门针对隐私要有隐私计算技术,大数据要有海量数据技术,还要有冷存储、时序数据库,视频数据还有X数据库,完全可以将视频数据用人工智能的技术结构化,打上标签,存在专门的视频数据库里。

未来数据管理技术会越来越走向分裂,会越来越多,因为数据越来越多必然会导致不同的数据需要不同的数据处理,未来的数据管理技术只会多不会少,会经历很长的阶段。

再回到大数据,今天上午发布了批处理、流处理的。我们再看从计算机到多媒体,到今天的大数据,第一个阶段都是在搞批处理。从底层的,到多媒体,到今天的数据,这是很明显的发展历程,第一阶段都是把数据和文件一股脑的做了处理,后来我们觉得不太行,还需要优化,所以我们要搞交互式的,搞流媒体、流计算。开始都是批处理的是因为好做,批处理往往是打开了新的技术领域的第一扇门,是最笨的,笨总比没有强,这是很明显的发展轨迹,而且很明显我们从硬件到软件,现在到了数据的时代,围绕数据我们是不是要构造一个新的操作系统?我觉得完全可能。数据库有可能下一步会发展成操作系统的东西,因为数据时代,操作系统专门针对文件和底层系统。

第一波批处理解决后,架构上还没稳定,自然而然提到了流计算,这在上午已经提到了,我就不多赘述了。

大数据技术有几个特点,跟其他技术发展轨迹一样,云原生,数据库一定要跟云结合,安全计算,主要是数据流通多方计算,运维自动化。我们面对数据越来越庞大,种类越来越复杂,靠人肯定搞不定。云计算需要运维自动化,数据也要运维自动化、智能化、标准化、技术化、工具化,因为人搞不定,数据太多了。还有资产化、容器化,我原来也专门提过这个概念。

因为我们解决了数据处理之后,马上面临的问题是如何交付,如何让处理和环境耦合。云计算搞出一个容器技术,让我们开发运营的环境能跟底层环境耦合,做数据库、数据管理的时候,你的软件是不是也应该跟底层操作系统环境耦合,趋势肯定是这样的,要想办法把它包起来,方便交付,还有数据中台。我们看到了新的技术,互联网公司引发了分布式数据库技术浪潮,正在改变全球数据库的市场格局。全球很多企业在做分布式数据库,很明显,因为这是针对新时代的新的明显的变化。

我们讲完数据,处理数据的东西叫算法,所以也必然有算法的治理,算法的杀熟问题。我们为什么不开放算法?有人说这是商业秘密,对,肯定是商业秘密,但是涉及到每个人权利的时候,法律问题的时候,这是必须要开放的。有些可以不开放,但是有些必须要开。我们的算法问题,如何管理、如何监管,很明显提到了议事日程。算法是机器语言书写的数字世界的规则,算法是工程师设计的判断、优先级、盲点和偏见。算法关注效率而不关注道德和公平、合理的问题,这是不可以的,如果只是在数字世界可以,但是现实世界不可以,所以我们必然面临着算法黑箱、算法歧视、算法疫情的问题,所以如何让算法保持中立,算法一定要是可解释的。如果算法建议你锯掉一条腿你会接受吗?所以可解释性的问题也很重要,透明可解释的问题。

数据资产方兴未艾,上午已经提到了,最近几年中国有20多家数据管理软件,30多家数据治理咨询公司。我们只是认识到数据是资产,还不知道如何把数据变成资产,如何变成资产?机会。为了适应数据流通的需要,多方安全计算技术已经趋于成熟,我们需要有新的技术解决流通的问题,刚才专门提到了。

数据流通有很多难题,这是很漫长的过程,纵观人类流通过程发现越大宗商品,建立成熟稳定的流通系统时间越长,我觉得一代人都搞不定,大家放心,这可以干一辈子,因为数据质量的问题,价值的问题,安全规范足够一个人干一辈子。数据是大宗商品,数据可能是迄今为止唯一的还没有变成大宗商品的大宗商品,这是大的大宗商品,也可能会变成期货、衍生品,毫无疑问我们要做的事情太多了,时间很长,所以大家不用担心。

我们数据开放说了很多年,我们对照一下软件代码开放问题,当年也讨论了很长时间。软件代码是开和不开这么简单吗?不是这样的。软件代码开放之后中间有很长的灰色地带,全球有100多种开源软件许可证。拿到数据以后能干什么,不能干什么,我们缺少类似的概念,开放数据许可证是缺少的。所有的开放绝对不是1和0的问题,中间有很长的灰色地带,迄今为止全球还没有权威的,好使的,特别场景下的开放许可证。不是直接开的,一定是有游戏规则的,我们可以照抄一些开源方面的思路和方法。

简单概括一下,有些事情真是轮回,几十年了技术是轮回的。可视化是因为机器看懂了人看不懂,机器学习是人看懂了,机器却看不懂。我们搞人工智能是为了让机器能通过图灵测试,我们搞验证码是让机器不要通过图灵测试。我们搞互联网的目的是为了让信息更加分布、开放,今天搞云计算,让计算越来越集中,大数据让数据越来越集中了。我们分布了几十年,又往集中了走,这是很明显的轨迹。

我们正在从高估大数据的短期影响到低估大数据的长期影响转变,很多企业说不挣钱,我说几年前云计算公司也是这么讲的,就一个办法,熬。隐私保护、数字资产化等的技术化工具是机会,不仅仅是管理,更是技术性的东西。大数据基础性技术已经趋于稳定,持续性创新还在继续,主要是面临特定场景往上走了,数据内部分工才刚刚萌芽,我们做数据的企业几乎什么活都需要干,最根本的原因是整个数据产业处于初期阶段,社会化分工还没有完成,行业内部分工越来越完善现在还没有做到,行业内分工还是模糊的,需要进一步细化,数据在垂直行业应用才刚刚起步。

最后,更宏观的一个问题,开源让我们相信代码开放是好的,人工智能让我们相信算法,但是牵扯到伦理、道德的问题。区块链让我们相信机器,但是机器会诈骗。大数据让我们相信数据,让数据来说话,但是数据会说谎。无论如何,整个人类正在从相信牛鬼蛇神,相信机构转向相信技术。区块链是创造信任的机器,那是机器的零件,大数据也是创造信任的机器,也是一个零件。整个社会正在转向越来越相信技术,相信技术作为信任的锚点的过程,但是后面很多东西你发现不值得信任,尤其是我讲的更不值得信任,谢谢大家。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-09-18 16:58:49
新闻动态 2023云天大会|无线电赋能大数据产业高质量发展分论坛:探索无线新动能 助力数字新高地
随着技术的创新与进步,无线电在越来越多的领域得到了广泛深入应用,助力众多产业转型升级 <详情>
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>