中国IDC圈1月10日报道,1月8日,第八届中国IDC产业大典在国家会议中心盛大召开。本次大会以“新资本 新技术 新格局”为主题,力邀工信部、通信发展司、电信研究院领导,IDC企业、电信运营商、互联网企业、设备厂商等各行业精英齐聚一堂,共同把脉中国IDC行业未来发展之路。在1月9号分论坛“大数据与互联网技术峰会”上,阿里共享业务事业部高级数据挖掘专家李传福应邀出席了大会并发表精彩演讲“大规模用户行为数据分析”。

李传福

阿里共享业务事业部高级数据挖掘专家李传福

以下为李传福演讲实录:

李传福:大家好,我是来自阿里巴巴的李传福。我主要今天介绍的可能不用花很多的时间去350亿怎么花?花很简单,是由我们200多万商家贡献的,这350亿也是由我们200多万的商家朋友他们去考虑怎么花的,我们是不用愁的。但是大家知道在双11之前,李克强总理接见过马云,在双11前几天,马云就夸下海口说今年会超过300亿,他的信心哪里来,这就是大数据的作用。数据给了马云信心。

我在借下来的介绍里面,可能会有类似的信息,我今天的分享,借着王总这边介绍,她很好的把大数据应用的前景和概念体系给我们做了很好的梳理。我这边更多的是基于应用的。我们在阿里体系的业务范畴里面,对数据的应用,是非常广泛。我这里其实介绍的仅仅是冰山的一角,更重要的我这边正在做,或者已经做的一些事情,跟大家拿过来一起分享一下。希望我做的这些事情,对大家有一定的启发。或者是在过程当中,大家能对自己的应用,做一些结合。

另一方面因为我们在座的各位,来做不同的行业,不同的技术背景,从事不同的工作。我今天尽可能的用非技术的语言跟大家交流。通过业务的方式,让大家更好的了解,我们数据挖掘,或者是大数据今天他能做什么,他对企业带来一些什么样的价值。

在开始之前做一个简单的调查,这里有没有不用淘宝购物的请举手?都用。很多的场景都是基于淘宝的,所以我不用铺垫淘宝到底是做什么的?我今天主要分四个部分,一个是简单的介绍我们做这一块它的品牌架构长什么样。数据的服务,主要解决业务哪些问题。这个刚好可以比对一下我们自己的企业,或者是自己工作中有哪些东西你可以用数据的一些手段来完成。数据模型的视图,主要是做了哪些模型,我的重点是在第四部分,介绍几个不同的案例,希望在这个案例过程中,给大家一些不同的信息。

也是一个简单的框架,我们最底层的东西,就像刚才王总说的,我们是通过一个分布式的数据系统,目前我们每天产生的数据,大概有500T左右,放在这样一个分布式的平台,我们的分布式的平台,其实有两套系统,其中一套系统,是刚才看到的,基于hadoop之后升级改造的一套分布式的系统。目前我们正在用的是阿里巴巴自己开发的一套分布式的系统。大概这套系统有多大?不太好说,给大家一个数字。我们在云梯系统一,八九千服务器。云梯二,一万台。因为我们的数据,我们的交易,我们的访问信息非常大,在这样的一个系统里面,在底层架构方面,我们做了很多的信息的改造和突破。

另外,我们其实在在线系统方面,也做了很多的研究。这些研究其实是说,更多的是应用我们的业务中需要的,比如说云计算,在线计算,实时计算这些技术。这些技术本身可能他并不是特别高深的,但是拿到我们现在的业务场景里面,他要解决的问题非常复杂。首先他面临业务量大,并发高。双11我们要保障350亿,很多人并没有怀疑过我们350亿的消费者能力。很多人提到阿里巴巴创造300亿成交,行业人都懂,他的难度在两点。一个是我们的系统,350亿的成交,需要多少的并发,可以算出来,行业的人都是看这个点怎么完成。我们在双11的时候,并发量大概是每秒六万。如果说我们的火车票,在我们这套系统上,全世界的火车票都没有任何的压力。

在数据源之上,我们有自己的一系列的调度系统,这些调度系统,每天运营我们各种各样的算法,完全各种各样业务数据的聚合。调度系统其实是在每天的凌晨,到三点钟左右的时间,把我们需要用的各种各样的数据计算好。等着我们的业务来调用。再往上一层,其实就是离线的一些模型。什么叫离线的模型。就是我们基于一些离线的数据,做一些复杂的数据挖掘的机械学习的东西,得到了这些结论。他在离线环境下生成好,供上面的业务系统调用。

为什么不放在在线系统里做,大家理解淘宝的业务很明白,我们每一个业务对时间的要求非常高,它高到什么情况?我的一个计算,要完成的时间,一个复杂的计算完成的时间,要超过120毫秒。我们任何一个业务系统,在上线之前的性能,都要保证这样。一个再复杂的计算,都要保证120毫米之内计算完。我们会用大量的技术突破性能的问题。把一些高难度,复杂性计算的算法放在离线里面,提前做好,在那等着。我们的技术算法需要被调用的时候,再做一些简单的在线的计算和分装,完成效率和性能的保证。

上面是大家看到的一套东西,就是我们看到的搜索推荐,以及投放,以及活动的一些页面的东西。这些是我们的上层业务系统。在这里大家没有看到,其实我们在大数据分析领域的一些东西。我这里面没有做强调,其实这一套东西是我们跟传统所不同的。在这上面如果说我们的业务分析,和决策环节放到这里,同样是可行的。统计分析其实跟我们现在大家所具备的,所做的这些事情,其实没有太大的差别,我今天不做太多的介绍。

上面的应用大家看到,结合淘宝体系下的各种业务,可以看到各种应用。如果大家打开天猫的首页,购物结束后看它的帐单,物流的信息,每一个环节,同样两个人做同样的事情,发现里面的东西不一样。可能大家没留意,每个人的东西是不一样的。这是今天阿里所提供的不同的个性化的东西。

其实每一个环节,都会看到它有所不同,这些都是基于大量的数据计算,基于大量的用户行为分析所得到的个性化的用户的需求的匹配。后面我更多的介绍一下应用到哪了?应用到哪?这仅仅是举了一些例子。比如说流量方面,阿里遇到的问题有两种。一个是说我们怎么保证公平性,因为它是一个平台,它是一个市场。更多的是保证它的公平性。另外一个是保证消费者的体验的优化。以及购物时候的确定性。这个时候我们算法要做的事情是非常多的,都是为了两个大的原则,服务我们卖家的时候,我们要保证市场的公平性。服务消费者的时候,更好的优化消费者的体验。

所以我们在这个时候,要做的这些算法,大家可以看到,比如刚才说到的,进入天猫,从打开首页,我们总常用的,从导航览,每个用户看到的不一样。当一个女性用户,每天都在买化妆品的类的一些东西,她可能最先看到的都是以化妆品为主的东西。我们在首页你,你进去各种广告位、资源位的时候,每个人看到的跟他自己是匹配的,这就是流量方面的。

在品牌导购相关的东西的时候,我们除了要解决流量相关问题,还要去引导整个的市场,为我们的业务,为我们整个的产品,或者是平台的定位,以及我们的目标去服务。同样我们还要服务于我们的卖家,我们的品牌商,我们要给我们的品牌商提供工具和平台。让他更好的运营他的用户,他的会员。

刚才提到的个性化里面,还有一些个性化的推荐,从购物环节,一直到交易完,甚至说回来察看我的物流信息各种环节,会给你各种各样的推荐。刚买的东西就被推了,其实是我们的合作伙伴在外部做推荐,没办法掌握所有的信息,他只知道这个用户在关注什么,不知道这个用户买了,他们没有办法做到已购买的生命周期的关系。在淘宝的平台内部,这个问题已经得到了一定的解决。

包括我们的消费者,大家知道我们的消费者在整个的购物环节里面,有各种各样的诉求,同样也有一些消费者,他的诉求是通过交易搞点钱。有各种各样的买家诚信的问题,安全的问题。同样怎么解决诚信、安全的问题?我们也是通过数据的分析,用户行为的挖掘,判定这个用户的行为,是否符合正常人的行为,他的各种行为,是不是具有欺骗,欺诈,作弊的特征。包括阿里提供的一些服务,比如说急速退款。一个信用良好的消费者购物的时候,发现这个商品不是我想要的,我需要退款的时候。这个在以前的流程里面非常长,需要我们的商家反复的确认,提供凭证。过很长的一段时间,商家才把钱给我们。在去年的时候,我们提供了一个急速退款,当我们消费者的信用非常良好的时候,这个过程非常的简单。你提交了你退货的申请,并且已经退货,有平台出钱,把你的钱退回来。商家什么时候退,那是退给平台,这一个时间差由平台承担,平台先出钱。有可能这个时候我们的消费者,其实是在一个虚假的退货请求,我们的卖家不承认,并且举证不合理,这时候就产生了平台的坏账,怎么控制?这时候对我们的算法要求非常高。

这一个东西其实去年一年的坏账,大家都不可相信的低,只有一百多万。一百多万对于大家来说不少钱,但是对于平台来说,我们当时设计这个产品,是准确了五千多万的钱放在那。为消费者这笔坏账,准备了五千多万买单,实际上不需要。通过我们这一套模型和机制,保证我们该销售这个特权权益的人能享受到,这就是我们要做的事情。

在搜索里面同样的道理,当我们搜索同样一个词的时候,大家会看到,下面出来的东西是不太一样的。怎么做到?首先我们怎么去做到它的精准性。这是我们搜索领域研究非常深的一个命题。这是不做介绍,更多的是我们怎么做到个性化的搜索。个性化的搜索挑战,不仅仅是个性化本身,而是我们计算量之大。

首先我提交一个一个搜索的请求,这一个请求我们要去面对的是三千多万的商品。要在120毫秒之内完成,从三千多万的商品里面找到符合你,并且与众不同的商品。这里面经过多少环节?首先我要去找到跟你可能有关系的,在三前里面会找到一个小的。这三千多万里面,会抽出来一定规模的数据拿出来,再去做第二次平台。重新排序,找到跟这个关键词有更好的匹配度的逻辑,找到这个商品的时候,再进行第三次重排。每个人看到的东西跟他自己想要的不一样,我同样搜索手机两个字,我这个用户买东西比较低端,买手机是七八百,另外一个朋友搜索手机,他想买的手机是三千、五千,这个时候如果我们出来的东西要做到这一点,他要调用后台服务非常多的模型,我们的搜索模型加在一起有十多套。而且要在限制的时间内完成,这个挑战非常大。

比如说我们物流的应用,在物流端我们做到了什么?双11过完之后,有很多人看我们笑话,看我们的物流体系垮到什么程度。当我们跨过300亿的时候,它代表什么?代表着我们的物流企业,一天要处理的包裹量,是他往年一个星期,甚至半个月所处理的包裹量。他所用的车,所用的占点面积,所用的人员,毕竟不是一个互联网的企业,是一个传统的企业,每一个包裹,都需要同样的手段,同样的人搬同样的路径。这时候他怎么能够伴随互联网企业的成长,同步进行产业的升级,这其实是我们大家一起为这个事情做努力的。

刚才从业务上介绍了我们在数据方面所做的一些事情的点。这也仅仅是冰山一角。刚才说的这些,其实是在整个的阿里体系里面,都是在解决里面不同的东西,刚才说的是我这个团队,近期所做的一些应用为主。其实这些应用背后,我们要做的事情,其实更多的是在这一页片子里面,他要解决的一些基础的东西。

比如说我们的会员,刚才看到会员他的诚信,那样的一个业务,要用到会员的诚信,要有我们很好的数据的应用算法,解决我们的会员,是不是诚信的问题,我怎么判断一个会员他的行为是不是合法,这个时候我们需要一系列的模型去解决。

当我们很好的营销我们的消费者的时候,当我们一个妈妈在买奶粉的时候,我怎么知道他的小孩多大了。怎么知道他买的东西适合哪个年龄段,这个时候我们就需要解决,宝宝年龄的问题。宝宝年龄的问题,并不是说我们的妈妈买了东西,她就告诉我她小孩多大了。我们通过她买东西的时间点,以及她的轨迹,知道她小孩大约的年龄段,特别是切换奶粉,一段到三段,到四段,有严格的年龄阶段。她在换的时候,大概知道她宝宝的出生日期,我们很好的知道她的宝宝,每次上这个平台购物的时候,她宝宝大概的年龄,以及身高、年龄、参数。很快她就能找到她想要的东西。

我们的平台里面,大家知道不管是支付宝也好,淘宝也好,天猫也好,有一些实名认证。实名认证,并不一定全。当我们真正在我们的业务里面用到年龄和性别的时候,其实我们要解决的把不准、不全的那些东西补全了。这就是我们数据挖掘应用里面,要去解决的数据的预测的模型。我把年龄不准的,给它修正掉,把没有提交年龄的,根据它购物的行为,包括它的偏好,以及购物可能会存在年龄梯度的信息,反向的给它匹配掉。他不能解决100%的问题,不能说我算出来就100%的准,但是目前能达到83%的准确度,基本上在很多的业务产品下,可以提供到业务里面去用。

我们对商家来说,我们有几种,一个是在平台上,我要不要给他更多的机会,另外是我能不能帮助到商家,更好的去与这个平台对接,让他更好的服务我们的消费者。这里面会有很多,包括我们搜索的时候,商家有一些排序。我们申报活动的时候,哪些商家可以参加,哪些不可以参加,我们会有一系列的针对商家的模型。前几年我们看到筛选活动,更多的是小二的智慧去筛选。这两年大家发现,一个商家能不能参加活动,当这个活动出来之后我就可以知道。

为什么双11我能够很清楚的知道,我们能卖多少?是因为我们有了这一系列基础的工作,我知道商家,知道了消费者。知道了消费者大概多少人这一天来到我的平台上购物。每个人会花多少钱。我知道这些商品大概由哪些商家贡献,在之前我就知道哪些商家是符合我这个活动要求,进来参与这个活动,哪些商家不行,就是因为有了这一系列的模型能力解决这些东西。

当商家在成长过程中,遇到问题的时候,我们怎么能够很好的提示给商家,说你今天可能要做一些调整,或者说你要做,不管是货品、流量,资金,你需要做一些优化的时候,我们会有一些对商家的提示等行为。

在商品方面,其实我们对消费者的服务,主要是通过交易购买的商品来传递。其实我们对商品的一些算法的研究,也是蛮多的。这里能看到的商品的生命周期,一些标签,这里面有一系列的逻辑,来解决业务上的要求。包括品牌,我怎么知道这个品牌,与另外一个品牌是同一个诚实的。我们会说国际的一些大牌,进入中国,进入电商的时候,他特别的排斥,想要一块自己的地,不愿意跟很低端的品牌放在一起,觉得丢不起这个脸。但是到底哪些品牌可以放在一起,怎么放到一起,这就是我们算法要去解决的问题。哪些品牌是同一个城市,哪些品牌调性差不多,服装的品牌怎么知道这一系列品牌,是适合同一个消费群体的,这就是我们要解决的一系列的问题。

解决了这些问题,在我们导购的时候,就可以说这些品牌可以放在一起。另外一些品牌他不会放在一起。当一个消费者在选择家电品牌的时候,他选择某一个品牌,我就知道他要买家具等一系列东西的时候,他要选择什么品牌,这就是我们要做的基础的东西。

物流的东西等一会儿,我会拿一个案例给大家看一下。 大家打开淘宝的首页就可以看到这一系列的问题,整个天猫每一个角落都可以看到算法的力量在里面,每一个广告位,我们都可以很清晰的界定他所提供的服务到底是什么?不是大家看到的那么简单,说这个模块,就是一个广告吗?其实它不是广告,首先它是要有关系。关系的强和弱,要解决的问题非常多。比如说我要解决视觉疲劳的问题。你不能每天看到的是同样的东西。第二你要解决跟你有一定确定性的问题。第三要解决的丰富的问题,因为我们是基于消费者行为,消费者的行为,可能有一些消费者在我们的平台行为有限,他买过几件衣服,别的都没买过,我们不会只给他衣服,这时候要解决丰富性的问题。这些品牌是不是放在一起的,这些品牌是不是一个人所要的同一层次的品牌,要解决这些问题。

大家翻开天猫,从首页一直看下去,每个角落,大家都可以看到数据和算法在里面起到的作用。可能不知道这个作用到底怎么实现,但是可以去推敲琢磨一下。在我们购物的时候,不是要看评价吗,这样的一个场景,我们消费者在平均的时候,要决定买一个东西,看有没有说它很不好,看说好,是说什么好,要看很多。当我们觉得这样的一个场景,对消费者的体验已经不是特别优化的时候,去年我们做了这样的一个东西。把消费者所提交的这些评价解析出来,知道这一段话他在说好还是不好,说好说的哪一方面的好,说不好说的哪一方面的不好。去解决这样的东西。消费者在下面看到的时候,就不需要翻来覆去找。他通过很简单的一些交互,点一下其中的一个标签,就可以把要说不好的标签全部拿出来看一下,要解决这样的一个业务需求的时候,其实算法要做的事情,数据要做的事情非常多。

首先我们要把所有的,不同品类他描述的不一样,描述一个手机和描述一个衣服好与不好,肯定用的词不一样。除了纯骂的,别的都不一样。这时候要解决的事情,首先我们要提出来。每个品类要描述好与不好关键词和维度是什么?再把包含这些评价的内容抽出来,再看它到底对哪一个说的。他说的面料,到底这句话说的是面料还是别的,他说起毛,这个要转化。要把含这些信息的东西提炼出来,他可能只说这个衣服起毛了,你要知道他起毛是在说面料。这些东西用非常复杂的文本挖掘的算法把它提炼出来,又知道它起毛是好还是不好。同样一个化妆品,他说用了之后干干的,如果是控油的化妆品,可能是在说好。如果是保湿的,可能在说不好,这就需要解决他情感的方向的问题。把这些做完了,再提炼出来是我们前端看到的功能,这是数据要解决的问题。

这一页其实是在我们产生的企业也会面临到的问题,补货的问题,对于我们的一些传统企业,在电商平台上发展的时候,面临比较大的问题是,因为电商平台的物理的区隔没有了。但是在他去对接这些,交付这些服务的时候,他还存在物理的问题。我一个电视机,或者是一个冰箱。从北京发到广州,大概需要的成本一百块钱左右,我们有多少这种商品他的利润空间能够到100多块钱的成本,其实很难。这个时候对我们企业的挑战,知道广州的消费者我应该在广州,或者是哪个附近建一个仓库,把广州消费者所需要的区域放在那,把北京所需要的东西放在北京。又因为电商平台的不确定性,他的东西放在那里,就成为他永久的库存,这是他的矛盾。作为我们普通的商家,或者是品牌商很难解决这个问题。站在平台上,我们想各种办法,通过我们的数据,把我们不确定的东西,通过数据把它做一个确定性,很好的知道它,把他的东西分解掉,以什么样的频次,放在哪几个仓库里,这是我们需要做的。

350亿大家看上去是一个天文的数字,双11当天大家都在担心阿里的系统是否会崩溃,是不是会出现什么问题?双11当天过去了,350亿成交敲定的时候,大家开始担心。中国的物流,中国的物流行业是否能经得起行业,是否能够对付所提供的能力。不光是业绩的人在担忧,消费者在担忧,我们的商家在担忧,其实我们的物流公司也在担忧。但是他担忧的更早一些,今年四五月份,他们就开始担忧。

今年还好,今年的物流,跟去年比单量增加了一倍,一天1.5亿的包裹,其实我们双11之后连续几天的销量很不错。双11过后那几天,一共产生3.5亿个包裹,那一个礼拜都是一个物流中心里面,有3.5个包裹需要送到消费者手上,对我们的物流企业有多大的挑战?在这个时候,我们在双11之前做了几件事情。一件事情是我们比较传统的手法,跟政府的部门公关。比如说铁路部门,航空部门,给我们储备一些运力做保障。我们的物流公司自己也会购买一些车辆,跟线下的运输体系对接,甚至是购买很多的地放东西。作为数据上做了什么?其实在这个时候,我们其实做了三个版本的预测,预测主要解决两个问题。我告诉我们的物流企业,就是我们对接的主要有十几个物流企业。我告诉他每一个企业,在双11期间你的包裹主要是发生在哪些地方,每个地方有多少辆。你的包裹会送到哪个地方,你要把车停在哪,哪些地方的仓库需要配多一些人。再告诉他你哪条路线上,会最忙。从广州到上海,还是到北京到上海,每个路线大概的包裹量是多少,我们是分解到每一个公司,每一个路线,每一个中转站,每一个网点的业务量。在8月份给他们一个比较促的版本,稍微有一点偏差,事后来看偏差并不大,他们以这个来准备他们的资源。

双11前几天,我们的预测已经接近双11当天的各种指标,这时候我们要做的事情,物流公司按照我们的提前的部署有章法的去执行。我们提供给物流公司的数据,会告诉他们哪个线路是最繁忙,你要加派人手。接下来的包裹,比如11月12号,我会告诉他接下来这几天,所有的包裹压力会流到哪,他已经到派送节点,到中间的一些中转站的节点,会告诉他每一个节点的洪峰来的事情,以及量的大小,他可以提前一天调配的人员,甚至是车辆的部署,这是我们要做的事情。

我今天的的分享主要就到这里,可能仅仅是简单的介绍了一下我们正在做的事,希望大家有一些启发。更多的技术上的一些交流,大家可以加我的联系方式,去沟通和联系。数据的工作是开放和共享的,数据的未来是共享的。也希望大家一起为数据的工作献策献力,更好的把我们数据的价值做出来,作为数据人我们要做的,就是把数据的价值大化。谢谢大家。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-09-18 16:58:49
新闻动态 2023云天大会|无线电赋能大数据产业高质量发展分论坛:探索无线新动能 助力数字新高地
随着技术的创新与进步,无线电在越来越多的领域得到了广泛深入应用,助力众多产业转型升级 <详情>
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-13 10:31:00
国内资讯 从碳足迹到竞争力 数据中心创新设计趋势前瞻
数据中心是数字经济的核心支撑,设计是数据中心建设和运营的第一步。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>