随着大数据与云原生的快速发展融汇交互,各技术领域又将来临新一波迅雷之势的挑战和创变。利用云原生技术的简便快捷、动态调度、按需伸缩等优势,如何加速大数据基础软件和系统的迭代更新频率、确保整体环境的最终一致性,如何为数据库提供极致的性能、弹性和无限扩展能力,以及由此带来的运维模式转型该如何应对,以上种种,都是我们当下需要率先突破的课题。

当下来看,不仅仅是技术上面的难题,很多企业依旧是使用的老一套大数据处理方案,但数据量日益增大,需求增多。传统的数据中心无论是在性能、效率,还是在投资收益、安全性,已经远远不能满足新兴应用的需求,数据中心业务急需新型大数据处理中心来支撑。除了传统的高可靠、高冗余、绿色节能之外,新型的大数据中心还需应具备虚拟化、模块化、弹性扩展、自动化等一系列特征,才能满足具备大数据特征的应用需求。这些史无前例的需求,让存储系统的架构和功能都发生了前所未有的变化。

对于企业来说,大数据方面的挑战包括:

·业务部门无清晰的大数据需求

·企业内部数据孤岛严重

·数据可用性低、质量差

·数据相关管理技术和架构问题

·数据安全问题

·大数据人才缺乏

·数据开放和隐私的权衡

要更快速的释放数据价值,一套完善的方案和系统是关键。而这一领域的佼佼者便是华为云一站式大数据解决方案,颇受业界认可。本文就从传统大数据解决方案和大数据的特点出发,来剖析为什么要选择华为云的大数据解决方案。

一、海量数据处理方案

1.1 大数据存储

1.1.1 传统数据存储

通常业务系统产生的大量日志,传统的处理方式是采用集中存储。集中存储就是指有一台大型主机或多台主机组成中心节点,数据集中存储于这个中心节点上,并且整个系统的所有业务单元都集中部署在这个中心节点上, 数据计算几乎完全 依赖于一台中、大型的中心计算机的处理能力。系统所有的功能均由其集中处理。在集中式系统中,每个终端或客户端仅仅负责数据的录入和输出,而数据的存储与控制处理完全交给主机来完成。集中式存储大的特点就是部署结构简单。放在现在整个环境中,需要面临以下考验:

·系统安全性:需要对抗DDoS攻击,传统自建数据库需要自行实现,且实现成本较高,同时也需自行修复数据库安全漏洞。

·硬件成本:为了能部署数据库,开发者需要购买费用高昂的数据库服务器。一次性的硬件成本很高。而且考虑到硬件损耗,后期还会有维修和更换硬件的成本。

·运维成本:需要花费大量的人力物力来维护硬件、维护操作系统、维护数据库软件。

·可扩展性:传统自建数据库采用物理硬盘作为存储空间,受单盘容量的限制,并不支持弹性升级,要增减节点,也比较难实现,如果某个数据库超过了这个存储的限制,需要运维和开发的人员一起进行数据归档,来降低数据库容量。

·可靠性:单机实例,没有数据灾备。需要额外成本建立异地的数据灾备。不管是主从架构、还是负载均衡还是自动容灾方面,传统自建数据库都需要自行实现。

传统数据库或数仓产品面临数据存不下、查不出、扩容难、成本高的痛点。因此,如何对整个传统数据库升级跃迁,是企业面临的关键问题之一。

一方面是传统数据库不能满足互联网企业新需求。互联网企业因业务快速扩展,需实时处理海量数据,并发访问量非常大。传统数据库基于专用服务器和高端存储构成共享存储环境,设备造价昂贵,且性能和扩展性极其有限,无法满足互联网行业对数据库高并发、实时在线需求。

另一方面是传统数据库不能适应云计算技术新需求。云计算公司依托技术积累,发起由IOE架构向基于廉价PC服务器技术的变革,降低IT服务支出,倡导以软件为中心的架构演变,降低数据库维护升级的风险。传统数据库环境是集中在一个地点的高稳定、高可靠、高可用的高端企业级设备,制约云计算企业未来业务发展,增加长期运营成本。

传统数据存储面临着以下四个问题:

·无法应对每秒上万次的读写请求,硬盘IO此时也将变为性能瓶颈。

·表中存储记录数量有限,横向可扩展能力有限,纵向数据可承受能力也是有限的,面对海量数据,势必涉及到分库分表,难以维护。大数据查询SQL效率极低,数据量到达一定程度时,查询时间会呈指数级别增长。

·难以横向扩展,无法简单地通过增加硬件、服务节点来提高系统性能。

·对于需要24小时不间断提供服务的网站来说,数据库升级、扩展将是一件十分麻烦的事,往往需要停机维护、数据迁移。为了避免服务间断,如果网站使用服务器集群,则根据集群策略,需要相应的考虑主从一致性、集群扩展性等一系列问题。

那么结合现有的云原生技术和大数据技术,数据仓库又该是何种形式呢?

1.1.2 云大数据仓库

以华为云数据仓库 GaussDB(DWS)新一代云数仓为例,GaussDB(DWS)作为新一代全场景数据仓库,具备极致性能、高扩展、极简易用、一站式分析等特性,满足大数据时代企业构建新型数仓的需求。融合分析能力是云原生数据仓库GaussDB(DWS)核心亮点之一。GaussDB(DWS)采用一套SQL引擎,支持Oracle、Mysql、HDFS等多源数据融合分析,并通过算子下推、加速集群等技术对分析性能进行了大幅优化,在数据免搬迁的前提下,实现了跨源数据免搬迁、高效分析。

能够在运行时进行按需扩展的能力是任何企业成长的先决条件。因为这种能力让企业可以专注于追求商业目标,而不用担心存储空间大小的限制。传统数据库将所有文件和资源都存储在同一主机中,而云原生数据库GaussDB则不同,它不仅允许你以不同的方式存储,而且不受存储空间问题的影响。

比如我们从MySQL数据库数据迁移至GaussDB:

1、导出mysql数据

1、下载数据并上传至GaussDB服务器

2、导入GaussDB

可见迁移十分便捷。GaussDB 提供配套的迁移工具,支持使用dump和load将数据库中的数据导出成标准化通用文件,可使用GaussDB的 load导入Oracle、MySQL、SQLserver等数据库导出的文件,同时也可以使用dump导出GaussDB的数据,然后导入到其他数据库或者其他GaussDB数据库。可支持Teradata、Oracle/Exadata、Greenplum等数据分析系统的平滑迁移,而且支持SQL 2003标准,兼容Oracle/Teradata的部分语法和数据结构,支持全局事务、存储过程、数据强一致性保证。且GaussDB库仓一体,逻辑集群,支持一套集群容纳数据集市、数据仓库。

GaussDB(DWS)云原生数据仓库支持冷热数据多温存储,热数据存储于数仓内部,以获得良好的查询分析性能,冷数据可分级存储到更低成本的OBS中。不仅降低存储成本,并且在OBS内,通过合法鉴权,数据能够共享开放,供其他引擎处理分析。GaussDB(DWS)当前已经支持表内不同分区间的冷热数据存储,未来还将支持更细粒度、更加智能的冷热数据管理。

企业积累的海量数据及各种数据资产,体量庞大,需高性能大数据平台支撑进行全量数据分析和挖掘。企业可以依托DWS+BI工具打造全局的、直观的、关联性的、可视化的运营数字化分析平台 ,以数据分析来驱动业务价值提升及管理提升。

以国内某知名保险客户的商业数据库迁移为例。首先是要求高性能,客户上线业务为保险核心业务,这块业务需要数据库具备高并发、大表查询的能力,尤其是对接互联网和渠道的业务,对数据库性能要求很高。在保单的批量下单场景方面,GaussDB(for MySQL)凭借其优秀的性能完美支撑业务核心交易场景。

而且GaussDB跨AZ部署高可用,数据安全可靠。这个特性无论是在国内,还是与海外友商相比都是领先的,它能做到跨3AZ部署,任何一个节点故障都不会对业务带来致命影响。故障切换速度做到10秒以内,做到数据零丢失,采用白名单、VPC网络、数据多副本存储等全方位的手段,对数据库数据访问、存储、管理等各个环节提供安全保障。且GaussDB能够快速备份恢复,采用快照的方式,相比传统MySQL物理备份,整个恢复时间加快了数倍。基于底层存储系统的多时间点特性,不需增量日志回放,可直接实现按时间点回滚。备份及恢复逻辑下沉到各存储节点,本地访问数据并直接与第三方存储系统交互,实现高并发、高性能。

针对实时检索、复杂BI SQL定制并行查询功能,开启后同样多表关联查询速度提升10+ 倍。

1.2 大数据BI快速展示

既然谈到了大数据BI这条业务线那就把他讲到底。

1.2.1大数据BI产业链结构分析

大数据BI产业链结构总体上由数据源、数据获取、数据处理、数据分析以及数据展现五个方面构成。

第一、从数据来源角度

大数据应用的数据来源,不仅仅包括非结构化的数据,还有各种系统数据、数据库数据。其中非结构化数据主要是集中在互联网以及一些社交网站上的数据和一些机器设备的数据,这些都构成了大数据应用的数据来源。对于大数据的分析工具来说,现阶段对非结构化的数据分析的比较多。

BI系统则是在数据集成方面的技术越来越成熟。对于数据的提取和各种数据挖掘来说,数据集成平台会帮助企业实现数据的流通和交互使用,在企业内部实施BI应用就是为了可以更好地对数据进行分享和使用。

其中数据源由企业内部数据和外部数据构成。企业的内部数据通常与具体业务紧密相关,且多数来自我们可以掌控的软件系统,如CRM、ERP或者HR系统。ETL负责将数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库中,成为联机分析处理、数据挖掘的基础。最后通过数据展现工具对数据进行可视化分析,满足各种应用需求。多数企业对大数据BI平台数据权限管控、探索式自主分析以及快速搭建业务数据模型等功能有着强烈需求,这几种功能被选择的比例高达90%以上;

第二、从发展方向角度

BI的发展要从传统的商务智能模式开始转换。对于企业来说,BI不仅仅是一个IT项目,更是一种管理和思维的方式,从技术的部署到业务的流程规划,BI正在迎来新的发展。对于大数据来说,现阶段更多的大数据关注在非结构化数据,不同的数据分析工具的出现和行业内的应用范围不断的加大。对于大数据应用来说,怎么与应用的行业进行深层次的结合才是最重要的。

第三、从工具的角度

传统BI使用的是ETL、数据仓库、OLAP、可视化报表技术,属于应用和展示层技术,目前都处于淘汰的边缘。因为它们解决不了海量数据(包括结构化与非结构化)的处理问题。而大数据应用的是一个完整的技术体系,包括用Hadoop、流处理等技术解决海量的结构化、非结构化数据的ETL问题,用Hadoop、MPP等技术解决海量数据的计算问题,用redis、HBASE等方式解决高效读的问题,用Impala等技术解决在线分析等问题。

1.2.2 华为云一站式大数据BI方案

基于华为云数据仓库服务GaussDB(DWS)及基础服务,华为云一站式大数据BI可以5分钟完成自动化报表制作,可轻松打通多个业务系统数据,整合多源数据,构建企业级可视化分析决策平台。通过类Excel的设计器一键连接数据源,拖拽字段绑定单元格,报表即可完成制作。学习成本低,产品上手快,操作简便、快速,总结起来就是“易学易用易集成”。

方案优势:

1、一站式

一站式大数据分析平台,包括数据采集、清洗、整合、存储、计算、建模、训练、展现、协作等,一个平台上完成全流程数据分析任务。

2、高性能

利用列存储和内存计算,实现海量数据秒级响应。AI深度分析集成多种算法,挖掘潜在价值关系、模式和趋势,构建数据模型,做出业务预测与洞察。

3、极致易用

上线周期以周为单位,平台支持全部云端OS,支持公有云、私有云和混合云架构。操作简单,业务人员也能轻松、快速地制作并分析数据报告。

4、移动跨屏

无缝支持各种电脑和手机终端系统,并在这些终端设备上保持一致、易用的用户体验,随时随地通过移动设备进行数据分析。

数字化转型的最终目的并非是获得数据,而是挖掘数据的价值,实现数据驱动业务增长。华为云大数据BI解决方案定位于“面向业务人员的可视化分析”工具,让零基础的业务人员也能自主完成数据进行分析、挖掘与洞察,让数据真正走进业务,推动业务增长,实现降本增效。

华为云数据可视化DLV服务一站式适配云上云下多种数据源,提供丰富多样的2D、3D可视化组件,采用拖拽式自由布局,旨在帮助快速定制和应用属于自己的数据大屏。目前华为云还提供数据可视化DLV的基础版免费试用机会,可在华为云官网申请体验。

华为云数据可视化DLV具备如下优势:

1.丰富多样的可视化组件

提供丰富的可视化组件,包括常用的数据图表、图形、控件等

2.专业级地理信息可视化

支持绘制地理轨迹、地理飞线、热力分布、地域区块、3D地球等效果,支持地理数据多层叠加

3.可视化编辑器

拖拽即可完成组件自由配置与布局、所见即所得,无需编程就能轻松搭建可视化大屏,并且依据投放设备分辨率,自由定制大屏尺寸

4.多种数据源支持

无缝集成华为云数据仓库服务、数据湖探索服务、关系型数据库、对象存储服务等,支持本地CSV、在线API及企业内部私有云数据

通过以上案例,我们不难发现,华为云大数据BI通过多维度的数据统计方式,能更加深入地了解到消费者的消费行为模式及趋势。作为一种新兴科技应用场景,大数据BI正在成为未来智慧商业发展的重要方向之一,也将给传统商业带来革命性变革。

随着新经济时代的到来,越来越多的人开始意识到“数字经济”所具有的巨大潜力,而大数据正是其中最关键的一环,华为云以资源多与技术强的优势,能够更好地为客户提供差异化定制化服务,提升企业市场竞争力,获取更大市场份额。

刚好华为云的双11活动还在继续,截止到11月30日,访问华为云官网活动页面就可领取10000元的满减红包:

还有数据库、服务器、云安全等产品也有非常给力的优惠,快点入手操作起来吧!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党