为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办,大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。

6月5日上午,大数据前沿技术分论坛举行,来自中国信通院云计算与大数据研究所工程师王卓为我们带来了第八批大数据产品能力评测的精彩解读。

vbox12118_C09A4418_090738_small

中国信通院云计算与大数据研究所工程师王卓

大家好,昨天在主会场第八批整个大数据产品能力评测证书已经颁布了,今天我主要介绍评测详细的情况。内容主要分四部分:总体介绍、测试观察、详细结果、未来展望。

一、总体介绍

这些年大数据软件产业发展在不断扩大,比例从2013年刚刚开始测评时的20%左右到现在已经达到30%多,按照预测增长趋势还会不断扩大。大数据产品能力评测促进了大数据软件产业发展成熟,现有的评测体系包含多项多方面评测,既有已经展开的评测也有未来计划开展的评测,测评项不只包含基础能力还有相应的性能。目前共有112款产品通过评测,完成测试数量171个。

根据评测的数据统计,测评包括现在全球大规模的测试数据集100TB,测试大基础能力集群规模是10000节点批处理平台,在性能测试规模测试中,华为300节点、阿里300节点、新华三200节点。下图是对测评产品的统计,哪些企业具有更多的产品监测,前十有星环信息、阿里、腾讯云等。明显可以看到这些产品的基础能力和性能相对于其他的产品更加严格。

    二、测试观察

测试观察部分主要针对这批产品能力测试的概览,以及概览中发现的一些有用信息。第八批里两个比较有特点的是华为512节点大规模集群的能力和新华三200节点能力集群。

观察一:大数据基础产品的稳定与变化

分布式批处理平台产品已经成熟稳定,总体来看73%的产品是基于HDP和CDH的开源版本进行二次开发,23%基于开源社区或者完全自研。经过10多年的发展,大数据基础技术开源生态趋向成熟,国内技术人员对开源生态群体的熟悉程度逐渐增高。

观察二:分布式分析数据库规模不断突破

分析型数据库发展加快,部分原因是Greenplum的开源让更多厂商能使用和研究分布式分析数据库,据统计参与评测的14款MPP数据库中43%都是基于Greenplum,14%基于PostgreSQL。分布式分析数据库正在努力突破扩展性的限制,大规模能力有很大突破,华为完成了512节点基础能力的测试,新华三完成了200节点性能的测试。

观察三:分布式事务数据库产品迎来春天

分布式事务数据评测只做了两批,但是从两批情况来看,已经测了十几家。我们统计了国内超过20-30款产品,这两批测评已经测了现有产品的近一半左右。从图中可以看到,分布式事务数据库基础能力是在不断提升的,两批测评之间产品能力和水平都有了相应的提升。在架构方面,82%的产品是采用中间架构,18%的产品使用新型一致性协议。新型产品基于MySQL是最多的,现在基于PG的厂商正在兴起。

观察四:数据管理与数据集成

在数据管理、数据集成部分,近两年,国内诞生了20多款数据管理软件,由于开源生态缺乏,企业均自主研发数据管理工具。数据管理工具的标准化程度较低,需要进一步进行规范。数据集成工具是大数据生态很重要的组成,开源生态较为完备,大多数产品基于Kettle、Sqoop和Nifi等开源框架开发、少数企业进行自研。

观察五:行业解决方案丰富多样

在行业解决方案中,这里新加入了知识图谱的测试。知识图谱是跟行业非常相关的,我们测的有金融、公安、游戏行业。每个行业的形式都有很大不同,可能是对外的产品,也有可能是对内自用的,在这种差异化中可以看到测试项里,必选项很少,大部分是可选项。数据的接入以结构化为主,对于文本数据的关系、属性识别还不完善,后续还值得加强,可能要有一些针对性的技术。通用知识图谱构建工具需求巨大。在很多不同行业,在提供对外产品或者服务的时候,一般以对一个需求方直接进行结构化建设,但是如果有一个共通的产品而不是以介入化的方式做这个产品会是这样一个结果。

三、详细结果

这部分对于每个项目会展示一下评测项目的整体标准和这个项目的测试情况。对于分布式批处理平台测评,整体分为八大项37个小项——原来是44项,后来进行了删减变成了12个可选项的形式。第八批测评通过的情况如图,共有8家企业5家新测企业,累计38个批处理平台产品通过了我们的测试。测试通过率是非常高的,所有产品都通过整体测试用例的完成度均在95%以上,在运维、多用户、拓展性、安全性、数据处理能力方面测试用例完成度全部是百分之百的通过率。每一年每一批都有很多企业参与,这说明我们大规模的测试趋势是非常明显的。

分布式批处理平台性能测试。我们这次评测跟之前情况有非常大的不一样,之前测试用例是SQL任务、机器学习,从头到尾是一组测试用例。这次进行了改变,而且有难度上的提升,分成10节点、20节点、30节点三种规模,在10TB和30TB两种数据集两种规模下,三种节点之内做了测试,SQL分到10节点下。性能测试因为需要一个统一的测试基准,测试全部是在机房做的标准化测试,右图是机房给的测试环境。这批通过的三家企业的情况如图,分别是滴滴、浪潮、联想大数据,这三个产品具体情况是不对外公布的,所以这里公布的是一些统计结果,包括平均值、中位值、最优值。

机器学习的结果如图,包括10节点、20节点、30节点,上面一行是SVM的情况,下行是内部的情况,每个也都是平均值、中位值、最优值,蓝色是小数据量、黄色是大数据量。

分布式批处理平台性能测评趋势。再总结一下我们进行了很多批的性能评测,从多批性能评测里面看到什么样的规律?比较清晰的是SQL的趋势,从SQL的总执行时间上看,在30TB上的比较量,可以看出来它的趋势是比较明显的,而且在不断优化的。但是在机器学习方面看到的趋势不是那么明显,在小数据量和大数据量上有一定的差异,第五和第八批分别使用258G的Kmeans和1T的SVM,从数据量上可以看到呈现不断优化的趋势。

接下来是分布式流处理平台基础能力评测标准。这个是新的评测标准,设了参考的可选项。分布式流处理平台基础能力测评包括六大项:基本功能、管理能力、兼容能力、容错能力、扩展能力、安全性,共46项测试用例。总体通过的情况是阿里云的实时计算和星环的流处理引擎,这两家的不太一样。

分布式分析型数据库。这个也是通过了报批流程的行业标准,它的项目共有51项,30个必须选和21项可选。这批有3家企业通过,累计14个产品通过了测试,通过测试里面产品用例完成度都比较高,在95%左右。在基准率的大规模测试里512节点的云服务器集群上完成了这个。

分布式分析型数据库性能,其实它的整体测试目的跟往常没有太大的差别,SQL任务、混合负载、压力测试和稳定性,测试量给30TB的测试,但是这批是新华三首次大规模数据库的评测,这个测试是在100TB、200节点物理机上测试的,具体测试数据在这里不公布。

接下来是分布式事务数据库。刚才提到目前只测了两批比较新的产品,它的测试用例整体标准是完全没有显著影响的,秉承的意义是尽量通过的多更好,所以从结果来看,这批测试通过率非常高,几乎接近百分之百,唯一的差异体现在管理功能大类项内。这个评测有创意信息、中兴、亚信、腾讯云和星环五家企业通过。

数据挖掘平台这是目前通过比较快的标准,共5大项32小项,有两个产品,分别是阿里云的还有数澜,累计完成8款评测,百分之百通过率。

数据集成工具共23个测试小项6个测试大项,这次又测了4家新的厂商,加新产品累计 11个数据集成工具,这次测试情况是在数据源、目标源、清洗/转换三个大类里面百分之百完成,其他类中还是有缺失的,大的特点在于这4家企业他们的数据集成都是自研的,跟之前相比这是很大的进步。

数据管理平台44个大项,这批通过的三家企业情况,分别是腾讯、鼎信和浩鲸,看他们完整测评项可以看出,大家在整体测评项上有差异,整体通过率在86%-87%左右。因为数据自研功能项做标准的时候取了一个病题,这个病题导致某些可选项某些企业是不具备的,在这种情况下我们认为管理平台这样一个工具的标准化需要进一步迭代和扩展。下半年我们也会更新这个标准,形成新的测试用例。

最后是知识图谱,这是这一批新加入的评测,跟前面的逻辑不太一样,把大部分的测试用例、测试项全部定为了可选,测试部分3个是成对的,把他们分别算了一下共9个必选和20个可选。这批通过的情况不一样,从图中看出大家差异还是比较大的,这是行业和应用的长颈的区别。这批评测具体通过公司有海致、腾讯、明略和渊亭。因为觉得未来分布式知识图谱工具是值得关注的,所以我们慢慢会把标准逐渐集成必选项。这批整体参测有37个产品25家企业。

四、未来展望。

接下来介绍一下评测未来的展望,首先从大数据产品能力评测体系出发,我们已经有了一些将来的计划。我们觉得未来有些很新的方向值得进一步做这些工作,包括数据中台、数据湖产品方向,云原生大数据产品方向。数据脱敏是下一步要加入进测评的,除了此之外其他数据安全也是一个方向,还有行业大数据应用与解决方案。最后是性能,未来我们要做更多性能基础测试,面向时序数据库、事务数据库、流计算等技术,都要有相应的性能评测,这也是我们下半年的工作重点。

最后介绍一下第九批大数据产品能力评测从现在开始正式启动,报名也从今天开始到7月15日结束,测试时间是6月10日到11月15日,11月下旬进行专家评审,最后会在数据资源管理大会上进行证书颁发,我是这批产品能力评测的主要负责人,如果有相关问题大家可以找我解决。

 

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-05-09 09:41:10
云资讯 信通院李海花:工业互联网一体化进园区,赋能县域经济高质量发展
工业互联网园区的标识解析体系也可以和5G、边缘计算、工业互联网平台协同推进,加速园区数字化能力的一体化建设和推进。 <详情>
2023-04-06 16:05:53
市场情报 中国信通院“可信软件物料清单(SBOM)主题沙龙”成功召开
会上发布了首批产品维度可信软件物料清单能力评估结果,并邀请多位知名企业代表和技术专家围绕软件物料清单的发展趋势、技术探索等发表了主题演讲,为行业从业者带来更具实 <详情>
2022-12-30 09:45:50
区块链 中国信通院发布《区块链白皮书(2022年)》
白皮书梳理一年来国内外区块链技术、应用、产业发展新动态,阐述以区块链为核心的信任科技体系建设新进展,展望数字经济时代区块链技术应用和产业发展机遇。 <详情>
2022-09-22 10:58:07
运营商 中国信通院:三大运营商1-8月份数据中心业务同比增长15.5%
三家基础电信企业新兴业务收入快速增长,拉动电信业务收入增长5.3个百分点,其中数据中心业务收入同比增长15.5%。 <详情>
2022-06-27 10:04:05
云安全 2022中国信通院首届业务与应用安全发展论坛成功召开!
中国信通院云计算与大数据研究所针对业务与应用安全已开展多项工作,在推动相关标准和评估体系建设的同时,也搭建了面向全行业的业务与应用安全交流平台。 <详情>