中国IDC圈1月10日报道,1月8日,第八届中国IDC产业大典在国家会议中心盛大召开。本次大会以“新资本 新技术 新格局”为主题,力邀工信部、通信发展司、电信研究院领导,IDC企业、电信运营商、互联网企业、设备厂商等各行业精英齐聚一堂,共同把脉中国IDC行业未来发展之路。在1月9号分论坛“大数据与互联网技术峰会”上,新浪信息系统部高级数据挖掘经理李云辉应邀出席了大会并发表精彩演讲“新浪大数据处理”。

李云辉

新浪信息系统部高级数据挖掘经理李云辉

以下为李云辉演讲实录:

李云辉:各位嘉宾大家下午好,我今天主要跟大家分享的是新浪的大数据的处理。在讲这个之前,简单的介绍一下新浪大数据,新浪大数据分两块,我今天讲的是离线,还有一块是在线。我们在做的社交兴趣,那个是在线的。我今天主要讲离线的。

主要分几个方面,一个是我们的背景,第二个是技术架构,第三是数据架构,第四是建立的服务体系,第五是应用的案例。

新浪现在的数据规模,我这里面主要讲的是新浪微博。目前有六亿多的注册用户,一亿多的OA,30TB的日志量每天。90%都是非结构化的数据,都是一些日志,和内容的数据。数据的关联上面有庞大的粉丝,社交网络的关系。我们在微博上的垂直产品很多,更新迭代非常快。

新浪大数据的背景,我们从2010年开始做这块的工作,在互联网里面,我们还算是一个探索者。从2010年开始,我们到现在走过了三年,三年的时间我们也一步步的沉淀了很多。建立了分布式数据平台和共享式的数据平台。初衷是因为我们的业务发展非常快,我们的用户量从2010年开始,到2011年,2012年增长非常快,产品迭代非常快。我们的需求量非常大。业务的需求变化非常快,计算比较复杂,因为都会涉及到一些传播的路径。

数据获取的周期比较长,分析的需求也特别多,使用的业务部门非常多,实时性不能得到很好的保证,数据质量不用讲了。基于这样的背景,我们在2010年开始规划建设这样的一个分布式的数据平台。在这里面主要是通过三个层面,我们做了三个层面,这样的数据平台我们分了三个层面。一个是底层的技术架构的层面,就是我们的hadoop的生态圈,在这上面做了很多的工具。

第二是数据架构层面,有这么多的数据,我怎么让它共享到全公司的各个业务部门,而不是各个业务部门自己搞自己的数据平台,搞自己的主题。第三是在数据平台之上,我们去建的服务全公司的整个服务体系。我们有一个ISA的标准。

技术架构这块,大家都比较熟悉,我们也不例外,也是基于hadoop的生态圈,从最下面的日志的接受传输,不管是通过什么方式,进入到hadoop.我们在这之上,会做一些ETL数据的整合,进入到中央的数据仓库,再往上就是在上面会做一些数据的挖掘,实时的统计,实时的计算,以及一些数据的展现,所有的数据的项目的支持,包括前端的一些数据的产品。

数据架构,在hadoop上去搭建分布式的数据仓库,怎么让这个分布式的仓库能够让诸多的业务部门,是一种合作、协作的方式。而不是业务部门提需求去做,而是大家怎么共享协作,整个的数据在公司内部有一个共享。

主要是简单的介绍一下我们的体系架构,是我们的原始数据,数据来源,90%是我们的日志文件,包括流量,包括行为,包括商业化的数据,包括广告。

我们经过简单的一些数据汇总,或者是数据的分析,会建文件的各种各样的主题,有两大:一个是通用的主题,第二个是与各个部门的数据提示。支撑我们最主要的,就是我们的分析挖掘,专门提高数据挖掘使用。

我们会做一些应用层,有很多的统一的视图。再往上就是我们提供的几个服务,面向产品到产品运营这个层面。分析师是一个层面,技术、算法团队是一个层面,基本上都是在这个平台上使用。

不同的角色,不同的业务部门,我们提供的服务部一样。产品运营,更提供的更多是制度化的报表,以及数据门户,多维分析的工具,自己去写一些客户端,写一些SQL.分析师还是提供一些HA的自动查询,让他能够更方便的做一些数据分析和沉淀。

开发通过gateway客户端的方式登录,登录我们自己的数据开发是一样的,能够在上面进行一些统一的分析。数据的接口就是我们做出来的东西。在这里面所有的团队,遵循的都是同一套的数据规范,达到数据的共享。

再往上支持我们的产品和运营,现在我们支持的服务,有日常的老板的每天的日报,各个部门主管所关心的指标,产品运营看到的数据,以及线上的数据产品。大家在微博上看到一些数据产品等。

这是整个的数据架构的层面,服务的体系,我刚才也讲到了一些,主要我们做了有几块,一块是数据产品,一块是BI支持。

应用案例,基于前面大数据平台,我们主要做的是离线的数据的处理,和实时流的计算。在这里面我们基于这上面做了一个最主要的,就是数据门户。在全公司统一要看数据进入的入口,供各个高管和部门主管,以及产品运营的同学每天关心自己的KPI,以及关心自己的数据。

第二个就是说我们这三年来,围绕社交网络做了一些模型层面上的一些工作,应用产品大家看到的更多的是微博的数据产品,现在看到的更多是微数据,风云榜,微指数,微报告。还有一些口碑,舆情监控。

模型研究这块,我们主要是集中在五个部分。一个是微博内容的挖掘,一些舆情的分析,一些话题的识别,一些用户在内容上的一些兴趣偏好。关系这块,主要是一些圈子,大家关心跟你是同一兴趣的一个圈子,还是说跟我关系比较相近的一些圈子。

商业上主要是之前在没有阿里和微博合作之前,也有电商的帐号,有一些微博帐号身份的识别。

用户的运营就是我们做的用户日常的策略。再就是分析社交这块,整个的行业我们做的一些模型。基础研究就是支撑模型研究之上的一些工作。这里就不详细介绍了。

举两个例子,主要的是我们做了一个口碑。主要是区分出,因为有很多这样的大V,或者是一些企业微博,或者是政府他们要求做一些监控。去看一下我这个品牌在微博上出现的正面、负面的新闻,或者对我的品牌的影响程度。我们做了一个口碑情感分析的模型,并且在电影,在某一个电影,最近大家对这个电影的评价,大家对电影的倾向是什么程度?这个我可以在后面介绍一下。

元距离,是我们做的一个圈子,主要是刻画这两个人的亲密度。我们这里面做了两层。一层是基于用户的兴趣做的一个圈子,一个是基于用户的社交关系做的一个圈子。用户的兴趣,比如说我们都对同一类的互联网的名人,大V感兴趣,关系主要是看我们的一个互粉,以及社交网络圈。

这里面大家都会去看,就是在微博上的一个数据产品,就是微数据。里面有包括微指数,包括风云榜。政府部门会以这个为标杆,看一些微博上的趋势。

再有一个就是数据的产品,微报告也是我们公司的一个重点。我们本身是一个社交化的媒体公司,跟线下的电视台,以及电视的媒体合作,做了一个调研的合作。

这块是我们战略级的事情,是新浪在做的大数据的另外一块,就是社交兴趣图谱,社交知识图谱。它是在线的服务,同时需要在离线的平台上做一些离线的挖掘。我们的目标主要就是把微博上所有的人、物、电影、图书、音乐、媒体以及所有的对象,我们会找到所有的对象的属性,以及对象与对象的关系,形成庞大的社交网络。分两层,也是一样的,我们主要是在兴趣这一层。

举一个例子,大家可以看到我这有一个简单的展示。在这里面可能有一个人,比如说王某,他可能经常去的地方就是IBS的定位,他可能是在娱乐场所,类似他今天,或者是最近看过一本什么书,听过什么音乐。有可能跟他是同一个公司是哪些人。我们做这个东西的目标就是要支撑整个新浪的微博的一些前端的推荐,大家看到的个性化和商业化。

我们可以举一些例子,我们在旅游频道,新浪微博里面的旅游。旅游我们可能会去刻划、构建用户在旅游当中的生命周期。刚开始可能分五个阶段。第一是制定旅行计划,出行准备,产品的约定,旅行中,旅行结束。 facebook发布了一个文章,上面42%的博文会提到跟旅游相关。大部分的人如果说没有看到,之前没有旅游的意向。但是你看到你的好友,或者是你的朋友,或者是你共同兴趣爱好的人,有这样的一些旅行的分享,或者是一些建议,那么去产生旅行计划的概率非常大。同样新浪微博也是一样的,我们也做了这样的一个旅游的知识图谱。这里面我们讲到,会对人,是因为你的微博上的行为,以及你的关系,你发的博文的内容,你的转发,以及你的品论,我们会从行为关系和内容三个层面上,对用户挖掘,构建每一个用户他属于旅游的哪一个生命阶段。他具备什么样的偏好,比如说他具备哪些消费的偏好。他是自助游,还是自驾游等。

我们可以看到一个简单的对象识别的结果,我会看到一个人,比如说某一个用户,他发表了一篇博文。他可能对一个酒店做一个评价,对一个景点做一个评价,我们可以挖掘出是正面还是负面,我们会对你的朋友,或者说你的社交圈会产生一定的影响。

总体上来讲,这不是我今天讲的主题,这是我们新浪正在大数据这块的东西。这是我们新浪在2010开始到2013年主要做的一些工作。谢谢。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-07-19 10:05:00
国内资讯 IDC预测:2021年100 GbE将会成为数据中心主流交换机!
根据研究公司IDC数据显示,自2000年代中期首次亮相以来,今年10G以太网交换机将首次损失市场份额,这是因为服务提供商和超大规模客户逐渐开始部署更快的带宽40G和100 G交换 <详情>
2017-07-19 10:04:00
大数据资讯 2017年全球数据泄露成本研究报告解读
近年来,全球各地无论是政府组织还是知名企业,频繁被爆出大规模数据泄露事件,尤以信息化程度发达的国家更为严重。研究结果来自11个国家和2个区域,从中选择了419个组织参 <详情>
2017-07-19 09:57:54
大数据资讯 大数据就是“大而全”?诸葛io邱千秋:数据“瘦身”后威力才更大
李彦宏说过,如果以英国的工业革命来比喻的话,大数据就是煤,Ai技术就是蒸汽机。数据越多,动力越足,这几乎是常识性问题,但是事实真的就是这样吗? <详情>
2017-07-19 09:42:40
大数据资讯 科技巨头争夺“量子霸权”,量子计算机或迎来爆发点
多年来,Google一直在将时间和金钱投入到一个雄心勃勃的梦想中:开发能真正运行的量子计算机。现在它正在考虑将量子计算应用到商业中。 <详情>
2017-07-18 16:50:15
大数据应用 大数据在各行各业几乎都站稳了脚跟
大数据时代的到来,改变的不仅仅是传统的商业模式,更深入到人们的生活、工作等各个环节,以及人们的传统观念之中。 <详情>