中国IDC圈1月10日报道,1月8日,第八届中国IDC产业大典在国家会议中心盛大召开。本次大会以“新资本 新技术 新格局”为主题,力邀工信部、通信发展司、电信研究院领导,IDC企业、电信运营商、互联网企业、设备厂商等各行业精英齐聚一堂,共同把脉中国IDC行业未来发展之路。在1月9号分论坛“大数据与互联网技术峰会”上,乐蜂网大数据平台部高级经理罗萌应邀出席了大会并发表精彩演讲“乐蜂网大数据技术与应用”

罗蒙

乐蜂网大数据平台部高级经理罗萌

以下为罗萌演讲实录:

罗荫:大家好,我是罗荫,来自乐蜂网,今天很荣幸由我给大家介绍乐蜂网大数据的技术和应用。主要有以下几个部分,一个是数据在电商,大数据平台架构的介绍,大数据平台的应用技术,大数据平台的数据模型,以及应用产品。

首先是数据在电商,数据在电商主要体现在业务运营方面。分为四个阶段。第一个阶段,是数据支撑运营,第二个阶段,数据引导运营,数据帮助运营,数据带来运营,带来运营和销售。

第一个阶段,数据支撑运营,主要体现在运营报表和一些数据的支持上面。就是说在网络上的一些运营的效果,直接以报表的形式展现,或者是直接给业务人员,做一些数据的提取,告诉业务人员哪些产品运营好,哪些差,哪些吸收做调整。

数据引导运营,主要体现在分析报告,以及挖掘分析方面。比如说我们做一次页面的改版,有A和B两个页面,我们要告诉用户,这两个页面的优缺点,情况怎么样,有一个目的性的指令告诉业务人员,或者是领导去支撑,要拍板用哪个页面。

数据帮助运营,这里面主要是通过挖掘的算法,带来自动运营的效果。比如是选品,商品的排列、排放。以及一些活动效果的自动更换,我们做首页焦点图,比如说我们有6升,那样的话,可能有某两升效果不行,我们在合适的时间自动的切换焦点图,而不是由业务人员及时的做,再去切换,而是由系统自动的切。

数据参与运营,主要是体现在数据产品,一些推荐、导购的产品,就是让用户跟网上交互,直接交互到数据产品带过来的商品,这些商品比较适合用户,让用户更好、更快的去集中产生一些订单,产生一些销售。这是数据在电商的交付。

对于乐蜂网的垂直电子商务,他其实就是一个互联网,加上一个零售。互联网主要体现在前端的乐蜂网的网站。零售就是后端的一些生产数据。包括刚才介绍的一些像补货,预测,什么时候缺货,什么时候该补货。前端那部分主要体现在跟用户直接接触的一些网站页面上。我们所怎么样把用户给引流过来,通过一些精准的营销,和市场的投放,把用户引流到乐蜂网的网站。用户访问了一些列表、频道、还是搜索,还是到了一些商品购物车之后下单,找到用户最优的下单路径,优化我们网站的用户体验。

在选品的过程中,我们会针对每一个用户,不同的用户对他进行一些个性化的推荐跟实时的推荐,让用户更快的找到自己想要的商品。补获建议,后端的零售,主要是体现在预测的算法,我们要对一些商品进行分析,有一些乐销、滞后的商品。乐销的商品我们要预测它的销量,在什么时间段及时的补货,对哪些商品进行调拨之类。我介绍一下乐蜂网大数据平台的结构,乐蜂网相对来说,电商起步的比较晚,规模也不算特别大,数据前几年都是在一些高速的发展中,近两年才开始在数据里面挖掘一些数据的运营出来。

大数据给乐蜂网带来的一个挑战,主要包括以下几个方面。一个是数据量特别大,像网站的一些流量,生产系统带来的一些业务数据,以及移动端,包括web、APP,带来了一些图片,客服那边带来了语音的数据,每天乐蜂网都有近TB级的数据量,对一般的数据库支撑不了。数据的类型繁多,像刚才说的,不仅有结构化的数据,主要体现在生产的系统,一些业务的数据。非结构化的数据,包括日志的文本数据,图片的数据,语音的数据。处理的时效,现在应用越来越多的时候,对实时的数据越来越高。运营人员需要看到上一段时间的销售情况,在大数的时候,对实时的数据需求更高,因为老板像阿里双11的时候,每一秒都在关注每一秒的销售情况。

互联网他是应用系统变化特别快,不像传统企业,它的业务也变的很快,我今天想要社区,业务增加的非常多,对数据的影响非常大。数据的应用驱动,数据产品的需求特别多。基于大数据对乐蜂网的挑战,我们建立了大数据平台的架构,这个架构主要分为四层,第一是原数据层,第二是计算与存储层,第三是应用层,第四是应用系统。我们在每一个原系统上面,搭建了一个实时的采集平台,把数据采集到我们的计算与存储层。现在我们的计算与存储层,大概有近百台的服务器搭建的机房,做了一个集成的整合。主要包括像storm,hadoop2.0,以及基于内存计算的SPARK,我们的应用系统层主要是提供一些应用查询,一些时效性比较高的接口,这里面有一些开源的数据库,包括my SQL、线上的HBASE,这些为我们上层的的一些应用系统和推荐,或者是智能导购提供应用,以及架构。

我们所有的数据归拢到一个集团的数据中心,这样可以找到每一部分数据的关联关系做一些深度和广度的分析和应用。我们也可以从数据中心,以及一些日志数据、图片数据,直接做一些分析和展现。日志数据分析展现主要体现在流那块,数据中心就是对流量、财务、销售的分析做一个呈现。整个的数据分析,把所有的数据接入到数据中心。整个的过程统一的调动。

下面介绍一下功能架构,从搭建数据平台开始,我们首先要建立一些规范。无规矩不成方圆,我们要有一些规范去规范以后的一些开发流程。规范主要包括模型、字典的规范,以及开发规范,还有一些数据架构的规范。在这个基础上,我们搭建了我们的平台,以及一些运算机型,还有数据仓库。我们其实是基于hadoop以及仓库两部分结合起来的,现在这个是缺一不可。我们可能会把基于关系性的仓库,把它迁移到大数据平台上。

搭好平台之后,保证一些生产、日志数据,都把它接入到我们的平台,通过点击流的数据,后端的交易数据,打通前后端的数据,可以让业务人员,很清楚的看到。比如说我一个商品,在专题,在团购,在搜索各种地方都有卖,今天它卖出了一百万,有可能我运营专题的人说是我卖的,这一百万都是我卖的,运营团购的人就不高兴。说我团购里面是网站的一个大块,应该是团购给他的一些贡献大。我们打通后前后端的数据,我们就可以告诉他,比如说一天一百万,你在团购里面卖了多少,比如卖了20万,在专题里面卖了30万,这可以看到哪个频道,哪个页面对哪个商品贡献更大。对于领导考核一些KPI的指标,直接可以看到数据,就可以进行考核。这是我们的一个功能框架。

下面跟大家分享一些平台的技术,这些技术可能像一些大公司,比如BAT都已经玩剩下的,我们现在正在一步步的往前赶。首先是hadoop,hadoop是一个生态系统,里面包括SDN,就是文件存储,我们所有的系统都存在里面,还有map reduce,还有一个HDFS,去搭建了一个在平台上的数据仓库。HDFS有一个类似SQL的语言,可以做一些hadoop的一些作业,一些语句,把这些语句翻译成hadoop里面的Map reduce,我们现在一些作业都在这里面进行。

我们的HBAS主要分线上、线下,线上主要是做一些查询,对时效性比较高的数据的接口。还有Mahout,主要是用于推荐,我们个性化推荐,有50%左右都是从Mahout里面出来的。

基于对时效性高的需求,我们也是用了一个storm的一个流处理的机型,storm就像水龙头一样,接受数据,做处理架构,做一些个性化,实时的推荐。这也是在乐蜂网站上,每个人看到的给你推荐的商品是不一样的,这都是通过个性化,针对每个人每一种特性,推荐出来的商品。

storm集群的一个架构。Nimbus它主要是跟hadoop的的节点类似。

这是偏技术的,我们在做storm集权,做一些编成开发的时候,需要配置他们之间的关系,做一些存储备份,去编写这个流处理的一些算法。基于现在数据量越来越大,对于运算的一些时效,在机器没有及时的扩展的情况下,可能会出现一些数据上的延时。那样我们又引来了一个更为强大的计算集权。就是SPARK,SPARK怎很多的场景下能达到我们Hadoop集群性能的十到100倍,百倍当然是针对一些特殊的场景,比如像机器学习的东西,做一些深度挖掘的东西,迭代算法的时候,他的效率会越来越高。我们测试了一下,在SPARK里面的速度达到五到六倍,SPARK也会成为比较风靡的产品,最近很多人在研究这个。

基于分布式的内存文件系统,这个也是由SPARK一个启发,出来一个内存的文件系统,内盘在IO速度已经到了一个瓶颈,大家就在想能不能从内存里面直接的计算,直接的存储。内存的运算速度非常高,后期可能直接放在CPU里面。现在有一个流行的东西,就是GPU,它的速度越来越快,以后我们的技术肯定会越来越快,时效性越来越高,性能越来越好的架构上面去迁移。

刚才说了一下我们现在有很多的机型,比如说像HBAS、Storm、hadoop、SPARK这些东西,我们不能分布搭在好几个地方,那样对于资源的损耗,维护的工作量,都是一个很大的挑战。我们机遇hadoop2.0上面,又引进了一个样,主要是为了做一个集权的整合。这个样hadoop1.0是支持不了,现在很多的公司都在研究跟升级hadoop1.0.样里面主要是整合storm、Hbase等。

我们自己自主开发的一个ETL的分布式调度。乐蜂网在每天的晚上,都有上万个作业,在那跑动。天作业,小时作业,估计阿里可能有几十万个作业在那跑,那样他们对调度系统,对调度的均衡负载要求更高,我们是上万个作业,一般的调度系统,一般的工具感觉是支撑不了。我们自己也是基于脚本语言,开发了ETL的调度系统,通过组节点,监督子节点,就是ET L调度的情况,安排一些负载比较轻的机器,跑一些ETL的作业。

这是我们大数据平台的一个分布式ETL的调动,以上就是我们整个大数据平台的一个架构。后面肯定会有一些新的架构出来。

说一下大数据平台的数据模型,数据模型说一下概念,大家应该都清楚数据模型,数据模型就是用数学的语言,去描述一些抽象的事物,包括架构的设计和蓝图。架构的设计主要体现在业务和需求方面。我跟业务方,跟需求方去了解你们想做成什么样,想哪些数据进行关联。我想打通网站的日志,跟移动端的日至,用网站的一些访问到移动端做推荐。我在快下班的时候,在乐蜂网网站访问了一些商品,我下班之后走了,想拿手机端看,我们可以给他推荐一些刚才在网站访问的端点。这样可以根据用户的属性,一些ID,一些索引给他推荐他想看到的一些商品。

蓝图就是最终我们通过跟业务人员沟通的一个架构设计,最后我们规划出来的模型,我们需要做成什么样,需要怎么去满足业务的一些需求。

数据模型的层次,主要是一个概念的模型,还有一个逻辑模型,以及物理模型。概念模型是比较抽象,比较泛的一个模型。它是抓住一些主要的因素,忽略次要的因素,大脑想象,这些业务应该怎么样,是一个概念性的东西,没反实际落地。逻辑模型是概念模型里面抽象出来的,像每一块业务,比如说订单业务,WMS业务,这些各种业务把它抽象出来,抽象成一个个的实体,用实体之间描绘之间的关系。

逻辑的模型,基本上是要符合第三范式的已有规范,物理模型其实是在逻辑模型上的一个翻译。但是物理模型,不完成跟逻辑模型一一对应。比如说我们在平台上面,如果做一些多表的关联,他有可能会相当的消耗系统资源,那样的话我们有可能在关联之前,我们直接把这些表都核成一个大框表,一个是节省系统的资源,还有一个是提升效率。但是这样他就不符合逻辑模型建模的一个规范,他可能是非范式的一个管理。

我们看一下逻辑模型跟物理模型的一个区别。首先刚才也说了,他业务含义上是一样的,实际上模型本身,不一定是一一对应,逻辑的模型主要体现的是业务,物理模型主要体现的是建设跟平台相关的。最终能够落地,实现。

数据模型,现在我们乐蜂网的数据模型,主要包括一些主题分析,包括从障碍过来,就是一些推广市场的分析,用户的一些分析,订单以及一些库存,商店,采购销售,还有流量、财务的分析。在这些分析上面,我们会有一些最底层明细的数据,包括像用户的数据,用户肯定是最明细,而且是最关键的一些数据。以及订单的一些销售明细,以及商品的销售数据。乐蜂网现在在做一些社区,风向标的一些东西,这都是我们的基础数据。

重点说一下流量数据,现在很多的互联网公司也用一些百度统那些东西,用这些东西肯定会带来数据的不安全性,以及管理方面的不方便性。如果这些数据都由自己管理,自己维护,用户流失也不那么容易。如果一些公司把一些数据对外开放,有可能被别的竞争公司挖走,我老给你做一些针对性的促销,或者是针对性的运营,有可能用户的黏性越来越低,老用户的流失越来越大。这对于一个电商公司来说,是一个比较毁灭性的打击。

我们现在的流量模型的DW层,主要是包括像用户点击表,用户访问表,以及一些停留时间的表,还有最后一次访问,主要是看用户的退出跟跳出,以及虚拟销售。基于这些层次上面,我们大概有成百上千的应用,主要是一些应用的报表和接口。

下面我说一下我们这边大数据平台,现在做出来的一些产品。主要是以下几个部分。一个是推荐系统,推荐系统从原来我们刚来公司之前,他们是用一个人为推荐,到现在数据推荐,我们给公司推荐那一块的占比,提高了大概两到三倍。

彩超系统,就是图形化的一些界面,支持拉框查询,直接把数据打到页面上,每块的访问、点击销售情况怎么样,让业务人员可以更直观,更娱乐性的运营这些东西。

总裁桌面,为总裁以上的用户定制(desbod)把KPI的指标放进去。实现掌上运营的效果。

EDM的营销系统:我对邮箱用户进行分群,用户老登录这个邮箱,对我们的营销感兴趣,这是优质的用户。有一些几个月都不登录这种邮箱,这种邮箱用户,我们把它标为长时间对他营销一次,我们是要抓住一些优质的客户,去做一些精准的营销。

比价系统,自动调价也是基于比价系统,在之前没有数据支撑,找一些数据直接找的情况下,经过数据的支撑挖掘比对深度的算法,比价的效果能到80%以上。

仓库的拣货优化系统。这个效率提升了20%以上。现在我们根据一些路径的优化,以及一些商品的拜访,把整个库房的那些商品的调放,以及货架的摆放,重新排放。现在我们每天只要在库房里面走40万米,节省了10万米的距离,这可以节省人员的成本。

用户画像系统。我们基于流动、移动端的数据,以及一些业务的数据,社区的数据,对用户进行一些群体的划分。我们现在有几百个群体的划分,主要是为了后期的一些营销活动,还有一些精准运销,以及CIM的一套东西去做支撑。

智能导购系统。我们现在正在开发中,这里面要用到刚才用的slab里面的东西,要做深度的挖掘和学习,让机器像人一样应用。用户在乐蜂网上,不是对着一个死的页面,是对着一个像人脑在计算一样,跟用户在交互的导购系统,让用户更容易找到自己想要产品,让用户在半娱乐化的情况下,就能实现购物,这也能提升网站的用户体验。

大数据的一个产品,还有一个是BI系统,这个主要是公司的高管、运营人员看的一些数据,主要是一些来源的分析,哪些推广的效果好,公司就会花更多的钱去做每个渠道的推广,这样提升了公司的一个ROI.用户来了之后,网站的运营,产品的运营,哪些页面用户特别不喜欢,一来到页面用户就走了。哪些页面的哪些活动比较喜欢,这样我们最终是找到用户最佳的一个访问路径,提升用户的体验。

我们推荐的产品,其实有好多块,现在有几十块,主要给大家列举几个,猜你喜欢,为你推荐,最佳组合。页面上来我们需要考虑到疲劳性,美观性,我们给的东西不能一直不变,这个东西都是个性化,而且是比较实时的推荐,每个人进去看到的东西不一样。

还有一些最佳组合,刚才晓梅也说了,啤酒跟尿布的故事,就是最佳的组合,这是比较经典的案例。还有超值特惠,我们可以告诉用户我们最近做什么促销,怎么组合,怎么买,是对你来说最省钱的方式。

说一下彩超的产品,这个产品是基于电机的像素,我们这个数据非常的准确,搜索框他点击比较多,首页导航点击比较多,我们的点特别的集中。不会像比较范式的那种,这也会产生一个问题,比如像一些浮成,浮成带进来的点击像素,比如说左边分类的一些浮成,分类的浮成一点,可能位置是在焦点图的位置上,焦点图上有一些一小块的点击点特别高,是(浮成)上的点击,也存在这种问题。基于这种问题我们改进了一下,相对来说比较模糊化一些,但是这个数据是做了一下分层。包括右侧那一块,有整体的页面,有每一个浮成的点击,这个数据会更精确,前面的数据比较直观一点,让业务人员看起来能够明显的找到用户喜欢的地方。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-07-19 10:04:00
大数据资讯 2017年全球数据泄露成本研究报告解读
近年来,全球各地无论是政府组织还是知名企业,频繁被爆出大规模数据泄露事件,尤以信息化程度发达的国家更为严重。研究结果来自11个国家和2个区域,从中选择了419个组织参 <详情>
2017-07-19 09:57:54
大数据资讯 大数据就是“大而全”?诸葛io邱千秋:数据“瘦身”后威力才更大
李彦宏说过,如果以英国的工业革命来比喻的话,大数据就是煤,Ai技术就是蒸汽机。数据越多,动力越足,这几乎是常识性问题,但是事实真的就是这样吗? <详情>
2017-07-19 09:42:40
大数据资讯 科技巨头争夺“量子霸权”,量子计算机或迎来爆发点
多年来,Google一直在将时间和金钱投入到一个雄心勃勃的梦想中:开发能真正运行的量子计算机。现在它正在考虑将量子计算应用到商业中。 <详情>
2017-07-18 16:50:15
大数据应用 大数据在各行各业几乎都站稳了脚跟
大数据时代的到来,改变的不仅仅是传统的商业模式,更深入到人们的生活、工作等各个环节,以及人们的传统观念之中。 <详情>
2017-07-18 16:33:35
大数据资讯 如何用大数据指导运营?
大量的数据就是大数据吗?究竟什么才是真正的大数据?如何用以大数据为基础的数据分析不断地给企业业务创造商业价值? <详情>