为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办,大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。

会上,来自工业和信息化部的领导,我国众多优秀大数据领域服务商、行业应用客户、研究机构、地方大数据主管机构的领导和专家,将对大数据政策、产业、技术的现状与趋势等内容进行交流探讨。

大会现场,来自中国信通院云大所大数据与区块链部副主任姜春宇,为大家发布了“大数据技术产品测试观察”。

中国信通院云大所大数据与区块链部副主任姜春宇

中国信通院云大所大数据与区块链部副主任姜春宇

大家上午好,很荣幸又一次站在这个舞台上。“大数据产品能力评测”已经进行了第八批了,很不容易。因为我们已经进入第5年了,而且我们还在持续的做,不断推动了整个产业的发展。

刚才看到的是颁奖的情况,具体来说,大数据整个产品评测是怎么做的?而且我们做了这么多产品到底有什么心得,从中能观察出什么技术领域的趋势?接下来我们的PPT就带来这样的分享。

首先大家可以看到这是一张整个大数据产业中软件所占比重的图,相比硬件和服务,软件逐年增长。从2013年22%,到2027年预计增长到45%,全球大数据产业软件在高速发展。

DCA大数据产品能力评测不断促进国内大数据软件的成熟,每年的评测体系和标准体系都在发生一些变化,都有新增加的项目,而且底层的我们认为已经差不多了,管理类、分析类和解决方案类的会慢慢增多,这是我们的认识。

经过5年的发展,大数据产品能力评测完成了171个测试,112款产品,这是我们的“全家福”。这张图里看到了各种各样企业的名字和大数据相关的产品,非常丰富。可以说这也是整个大数据产业里面做技术、产品企业的缩影,都在这张图里面了。

我们可以看到一些数据,在测试规模方面,DCA的评测是全球领先的100TB,超过了一些公司生产环境的的数据。测试过阿里的10000节点和华为的5000节点,性能完成过,华为的300节点,阿里的300节点,新华三的200节点。从通过产品数量来说,星环科技完成了8个产品,阿里、腾讯、国双等公司完成了7个产品,可以看到Top10的企业,都是产品非常丰富,技术类公司的典范。另外整个研发热点或者哪些产品是大家都具备的能力,批处理平台这是毋庸置疑的,还有分析数据库,这两年MPP数据库越来越重要了。数据集成、数据挖掘、数据管理这类工具也越来越多了。

我们第八批有个三个大规模评测,两个是在MPP的数据库,一个是批处理平台。之前的认识,MPP的扩展能力是受限的,但是今年看到了它的扩展能力也在迎头赶上,华三是完成了200节点,华为完成了512节点,突破三四百不是梦,扩展能力已经逐渐成熟。

第一个观察,大数据基础产品稳中有变,这是我们测过的四五十款大数据批处理平台,70%以上都是基于CDH和HDP的研发,23%基于开源或者完全的自研,批处理平台已经成为大数据生态最成熟的产品,国内技术人员对开源生态组件的熟悉程度越来越高,前几年大家会有一些边边角角的功能用不到,或者不熟悉,但是这两年明显感觉到这些功能都特别完备,特别熟悉。

去年CDH和Hortonworks合并了,Hadopp领域的免费午餐可能走到尽头了,Hadoop发行版会迎来一家独大的局面,以前免费的模式要结束了,我们可以看到基于CDH和HDP二次研发的产品占到70%以上,这个比例还是很高的。大型技术公司普遍采取开源和自研两条腿走路,来应对不确定性。

另外一个变化的趋势,前几年我们说Spark已经成为了整个大数据生态下一代计算引擎,这是板上钉钉的,但是这几年又产生了疑问,好像不那么确定了。为什么呢?这两年Flink非常受追捧,Spark在流方面遭到了挑战,为了应对这个挑战,它把以前的Spark Streaming转向Structure Streaming,也可以看到批流融合方式明显了。以前是批流,现在是流批,批处理可能是未来流的特例。

趋势去年讲过,今年还是这样的趋势,一是容器化,资源细粒度的控制。二是支持AI,大数据平台如果不支持AI,那就是两套平台,整个技术界就是分久必合合久必分,为了统一就必须要向AI兼容。三是流批的融合,也是为了解决不统一的局面。最后是面向大规模,尤其是在中国,这两年大规模的趋势越来越明显。

第二个观察是来自分布式分析数据库,规模不断被突破,前几年Hadopp厂商宣传MPP不行,必死,但是过了两三年,现在回过头来看,MPP数据库好好的,而且向Hadopp借鉴了扩展能力。华为测了512,华三测200,分析型数据库正在突破扩展性的限制。这两年分布式分析型数据库玩家明显变多了,主要原因是可以基于开源软件来进行更改和优化。在通过测试的产品中基于Greenplum的开发占到43%,基于PostreSQL的也有14%,完全自研的,我认为是比40%还要低。

第三个观察就是分布式数据库产品迎来了春天,这也是我们明显感知到的趋势。以前传统集中式数据库搞不下去了,就那三四家企业在做。但是这两年冒出头的数据库产品,分布式的超过了20款。技术水平不断提升,在一共测试的11款产品中,今年测的5款水平完成度还是要比去年6款稍微高一点。从架构来看中间件方式架构比较成熟一些,82%的产品是在开源的MySQL和PG基础上增加中间件,这样的架构相对比较成熟,而且相对容易一些。18%是采用新型一致性协议,Paxos,Raft,底层存储有多种实现,对标的是谷歌的Spanner等产品。而基于MySQL的改造最多,这也带来了开源风险的问题。还有性能、高可用、灾备、业务迁移是我们要下一步标准化的方向。

数据管理类工具是研发的热点,这个原因很简单。数据都上数据平台了,但是缺少数据精细化管理工具,而国际上或者开源生态这一块没有强有力的产品,只能进行自研,国内这两三年诞生了二三十款数据管理工具。之前谈起数据管理就是国际的公司,但是今年或者这两年我们看到的趋势,数据管理工具雨后春笋般,基本上都是自研的工具。大家标准化程度比较低,这也是标准化工作接下来要加强的一点,就是把大家共性的特点沉淀下来。集成工具也是重要的生态组成,这两年有11款产品参加了评测。而且管理和集成的工具经常会互相在一起的,也有分开的,这也说明大家对数据管理工具设计的哲学或者设计的理念存在一些争议,还没有统一,这方面我们需要更多的积累。

行业解决方案日益丰富,我们看到知识图谱,这个标准化程度更低。我们必测的只有7项,因为底层工具大家都不一样。知识图谱未来应用空间巨大。稍微大型一点的公司,内部都要有一套自己的知识图谱体系,这是肯定的。目前通用的知识图谱工具不是太多,巨头正在布局。目前金融、公安领域是走在前面的,需求是比较大的,很容易理解。金融的反欺诈和公安的查案都是关联关系的分析,特别适合知识图谱的应用场景。目前是结构化的数据转化为主,对一些文本数据和其他的属性识别还不是特别完善,这是现在面临的一些问题。我们也看到了另外的一些数据,刚才也讲到了智慧城市,这也是非常热的话题。今年我们也发了白皮书,做的初步的探讨。

最后大数据产品能力评测的发展方向,云化的数据产品,整合后的大数据平台,还有安全类的,行业应用解决方案,性能测试工具,我们会有更多性能工具,有流计算、时序数据库,和事务数据库方面的,也请大家以后持续关注我们在性能方面的标准。

我今天的分享就到此结束,谢谢。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-08-15 14:22:49
云技术 云计算数据管理的四个组成部分
鉴于数字业务对企业IT基础设施的要求和压力,企业首席信息官需要对其所拥有的IT技术充满信心,以帮助其组织保持响应能力、可用性、竞争力。 <详情>
2019-07-30 15:23:59
国内资讯 云数据管理助力组织数字化转型
与本地数据存储和管理相比,采用云数据管理有一个核心优势,即物理可访问性。 <详情>
2019-07-25 17:04:56
云资讯 化解数据管理难题 Veritas多云数据服务平台登场
近日,企业数据保护厂商Veritas Technologies,宣布推出全新多云数据服务平台(Enterprise Data Services Platform)。凭借Veritas NetBackup 8.2,新平台将借助集成技术来 <详情>
2019-07-18 11:55:00
大数据应用 锐捷智慧身份平台SourceID出手 助力大连海事大学智慧校园建设
随着智慧校园建设的进一步深入,利用信息化手段和互联网技术开展工作的热情也会被进一步地激发。 <详情>
2019-06-20 16:27:35
云技术 消除复杂性,Commvault助力企业多云征程
云环境正在不断演进并日趋复杂,驱动企业从原有的私有云或者公有云转向了混合云部署,也从单一云的部署转向了多种不同云平台的部署。据RightScale发布的《2019年云状态报告 <详情>