中国IDC圈1月10日报道,1月8日,第八届中国IDC产业大典在国家会议中心盛大召开。本次大会以“新资本 新技术 新格局”为主题,力邀工信部、通信发展司、电信研究院领导,IDC企业、电信运营商、互联网企业、设备厂商等各行业精英齐聚一堂,共同把脉中国IDC行业未来发展之路。在1月9号分论坛“大数据与互联网技术峰会”上,酷讯旅游网BI分析总监秦宇应邀出席了大会并发表精彩演讲“新计算时代用户产品变革”。

秦宇

酷讯旅游网BI分析总监秦宇

以下为秦宇演讲实录:

秦宇:我简单的介绍一下,我来酷讯之前,做了很长时间的商业数据分析的工作。之所以来到酷讯实际上有很多的原因。但是其中有一个最重要的一点启发我的是,因为我做了很多年的数据商业分析。发现了一个很困惑的问题,就是数据分析的价值到底在哪里?今天大家讨论关于大数据。数据前面加了一个大,大数据的价值到底在哪里?

刚才秋野前面说了,最近一段时间旅游比较热,火车票我可以很负责任的说,从我们酷讯的平台上,火车票的流量在涨,每天带来的流量很大,很遗憾火车票的销售是垄断的,再多的流量不在我们这,都到了12306,或者是铁道部的后台完成。

我以这个为起点说一个案例,来开展我今天的话题。每天我们有大量的流量在酷讯的火车票频道,但是我们也有一个问题。这个火车票的频道,火车票不能给我们带来任何的商业价值。我们就想火车票的流量,我是不是可以引导到我们酷讯能够赚钱的业务,比如说飞机票,旅游。专门做流量导入和导出的负责人。当用户搜某一个航线,从北京到上海的火车票,我同步在旁边给他推荐飞机票,而且这个飞机票是最低价的。结果这个项目很快上了,后来叫停了,我发现这个效果很一般。

很精准的推荐,为什么不成?我问了他一个问题,其实并不是在于你如何推荐,而在于你要了解。既然到火车票频道想买火车票,凭什么买飞机票,如果不了解这些问题,你做什么推荐,你所谓的大数据玩的再怎么好,都空谈,或者是没有太大的实际的意义和价值。

做电商的大数据,可能和做媒体,做推荐或者是社区的大数据不一太一样,他对成交的要求很现实,这也是为什么吸引我在酷讯做这么长时间,通过这个平台关注大数据在商业实际的应用领域中,有哪些问题。

今天我讲的事情,更多的情况下,并不是多少成功的经验分享,酷讯在这方面刚刚起步,在慢慢的摸索,我想共享的东西并不是做一个自身的秀,我想让大家了解,咱们在做大数据,或者是讨论大数据,或者在未来的两三年,当大数据的名词不在那么热,给我们留下什么启发。大数据给我们带来的机会先不说,给我们带来的问题,和挑战是哪些。如果真的想做大数据,你自身做好准备了没有,我说的准备,不光是技术上的准备。

先从一个60年代的案例说起。这个案例90%的人没有听说过。大数据是不是一个新鲜的事物。60年代发生一个事情,就是中国发现了大庆油田,在正式对外公布的时候,并没有任何的消息发布说中国发现了大油田。但是有一家日本企业,他很精明的通过一张照片,来做出了非常精准的判断,什么照片呢?就是这个照片,这个人就是王进喜。这张照片当时发表在一个人民日报的杂志深,日本看到这张照片,发现中国可能会发现大油田。为什么?第一个他通过油田背后的井架的密度,判断油田可能的规模。第二通过戴的帽子,穿的衣服,判断这个人可能所处的地理位置,是什么样的季节,这个季节在中国的领土当中,哪些地区可以穿这样的衣服,戴这样的帽子。根据他握的姿势,判断出油井的直径。

他还要搜集最近一段时间,整个关于王进喜先进人物一年两年的报道,看他最近一段时间在哪接受采访,发表了哪些观点,或者是喊出了哪些口号。再去对采访的内容进行分类,做出一系列的假设判断。还没有完,亲自到北京的火车站油罐车社采集了尘土做化验。通过各种信息判断如果中国发现油田,这个位置离铁路,火车站有多远,可能产生的物流有多远。这个时候可以判断出来这个油田具体在哪个位置,如果离铁路线太远,是过不去的。最后一系列的动作判断出中国发现了大油田,最后做出招标的项目。

通过这个案例说明,大数据本身不是一个新鲜的事物。我接触了很多的东西。在很多的行业领域大数据已经开始应用,他体现的并不是某个技术领域应用的水平,体现一个企业综合运营的实力。如果要做好这件事情,首先是一项系统工程。第二个背后是专门化的分工和写作,以及合理的人员构成。虽然那个不是通过计算机做出分析,需要石油、情报分析、能够解读当时中国政治环境种种信号的人才,还需要有懂中文的人才。从某种方向上来说这种分析和应用,是很高度协调的分工合作。

在很多的企业,包括现在的应用大数据的企业当中,我接触的,原来我在第三方数据测评公司给客户做项目,人员的结构不是很合理,要不是非常偏技术,要不是非常的偏业务。中间其实人员的合理性,包括人员分工合理性,实际上做的是不够的。

第三大数据是一个长跑,需要不断的观测、迭代和优化。做了那么多的分析,那家企业最终要落地的是提供钻井的设备,最终他要考虑提供什么样的方案,才能符合当时中国的经济条件、运输条件,不是没有目的的做分析。我们做大数据,考虑用各种算法是否想过最终这些东西输出之后,是否能够落地。落地的结果是业务的团队,拿它去赚钱的团队用它到底创造多少价值。还是说仅仅是像我今天拿出来给大家秀一秀。

有的时候数据的工作,并非像我们想象的那么炫,就是一些脚踏实地的坚持和规范。同样大数据的解读,不是依赖单一某个渠道,如果通过那张照片反馈的信息是不够的,他要拿各种方式做论证。那个年代可能没有像现在这么发达的计算机的应用水平,到了现在这个年代是不是不需要了。还是需要的。

当时一个航空公司,在上面一直做机票的预定,做的非常好。后来我们发现航线的价格突然涨了,对我们的转化率产生很大的影响。我们分析到底是什么原因?最后找了一个熟人,了解航空公司的老总说,那是航空公司周年的庆祝。老总在会上说,我们应该涨价了,就是这么一句话,没有道理。用我们的话来说,非常离散的决策,没有任何的道理。如果你不了解这些行业的潜规则,不了解这些行业是什么人在玩,你做这些大数据很难落地。

今天我想跟大家说的,完全是出自于我们在这段时间摸索出来的东西,关于我们具体做了哪些,涉及到哪些数据的报告,不方便在这个会上说,今天我可以保证告诉大家,无论今天你通过我的分享,得出什么样的结论,我可以保证每一个话,每一个字,都真正的出自个人,以及我们实践中的体验。

我先针对大数据,抛出四个问题,是我经常被别人挑战的,为什么你要做大数据。你既然想做大数据,能不能计量化的评估你大数据的成果,到底对业务的提升,有什么样的影响。很清晰,不是简单的说我流量、销售额涨了多少。没有大数据,市场很热,我也可以涨。怎么证明?大数据本身能否计量化的证明自己。

第二、能否清楚这些策略的应用目的。回到我刚才说的问题,我们有一个算法分析师,一定要在火车票上去做精准的机票的推荐,各种参数,各种逻辑,都想到了,但是唯独没有想到用户为什么不买火车票,要买飞机票,或者在什么情况下放弃买火车票,买飞机票。

第三、能否判断业务的关键点和瓶颈,以及大数据在这方面发挥什么作用。

第四、能否清楚哪些大数据的结果和成果是可知的,哪些是可为的。可知和可为,有的时候不统一。有的东西你知道,可能也落不到地上。

我们特别想在有一些行业,有一些航线的价格上占优势。我哪怕把竞价的结果报告,细化到秒级出结果,很难做到。我控制不了上游的供应商改变价格,这是我们做旅游平台的一个特性。像这样的结果我只能说我可知,但是没有任何的作为,因为我对上下流产业链的博弈能力没有达到那个程度。

四个问题反映什么情况?反映出另外一个情况,就是大数据一旦企业上了大数据,或者是在某些领域决定用大数据。他提出了哪些挑战。第一企业就算你清楚核心竞争力是什么?你应该提升哪方面的核心竞争力。但是没有找到提升核心竞争力的关键因素。我们提升出票,提升有点的预定量是我们的目标。但是决定这个目标相关的变量是哪些。对我们最实际最务实的变量是那些,一定要清楚。

产品和业务部门,对这些数据有很痴迷的需求,但是往往都是在试错和探索的过程中,缺少很系统的观测。因为我把频繁给我提数据分析需求的部门的需求理了一遍,他近一段提的需求是重复的,但是从不同的角度说这个问题,但是反映的问题是他不断的试错。

第三、是否只有对结果的量化考核,而缺乏对过程的量化考核。

第四、技术方案,要不就是头重脚轻,要不就是头轻脚重。头重脚轻就是想前端怎么表现,怎么提供。一旦前端需要这些数据,发现底层的很多工作没有做好。脚重头轻,就是基础做的很好各方面的日志做个很规范,就是没有办法生成,快速支持业务团队,业务需求的东西。也是一个不均衡的状态,这也是普遍存在的。

第五、数据相关团队的人员结构不合理,分工不明确。你们认为一个合理的数据团队,应该由哪些人构成,这些人需要什么样的知识和技术结构,大家才能成为很好得团队。

大数据在一定程度上,是对企业,可能之前很多没有做到位,或者是做的还不够的东西提出了新的挑战。今天我不是来讲课的,我今天讲的东西大家感觉有点学术,但是很多东西都是出自本人在实践刚才当中对自己对这个行业提出的思考。

回到这来,开展任何的形式的大数据策略之前,需要考虑哪些问题。分析无处不在,大家有的时候无所适从,问题的关键不在您会不会分析,而是在于你如何定位这些事情。

在我讲这些问题之前,我想说一下做好大数据的前提工作。在座各位并不是所有人能够在决策层面上发挥很大的作用的角色。但是我想考虑这些问题,如果你考虑清这些问题,你想通过大数据去做自己创业性的事情,考虑这些场景没有什么坏处。

第一、数据的价值是什么?数据的价值取决于使用者的重要性。它实际上取决于核心用他的人能够创造什么样的机制。

这几个角色我都接触过,投资商、董事会,公司CEO,部门高管、中层管理、一线员工。越是重要的决策,比如要投多少钱,在做决策的时候,并不是时间很漫长的过程。那要考核,要听报告怎么会不漫长。有很多初步的决策,决定往这投的时候,这个决策很短。我曾经亲历过一次,把我叫过去,都是全球的比较重要的投资商,让我做一个汇报。他们只是在吃早餐的功夫决定在哪些领域做投资。

大家可以看到,其实在看数据的时间上,越往上花的时间越短,对数据结构规范化的要求上,越往下它的结构化程度相对越低。这个是行业的因素,不要对号入座。

对数据的容错率,真实准确越往上越高。一线不断的试错,不断的提需求,不断的对数据的提取,对数据的获取分析提出要求,如果一旦跟不上,会出现错误的结论,出现错误的结论怎么办,没有关系再来。我们只是测试产品的某个功能,但是越往上保证的容错率很低,哪怕只是一个数字。越往上汇报的时候,一些很重要的客户汇报的时候,我们只是证明那两个数是否正确。

大数据再一个企业能发挥多大的价值,创造多大的价值,取决谁对它看的更重。有的时候我看到,一个企业的老总说我们一定要做好大数据。真正执行大数据的人,可能是下面某一个技术团队的某一个小负责人。顶多在某一个技术领域有一些成果,但是往往不会成为公司企业核心的战略。

大数据是系统性的工作,前面我已经说了,大体上分三个分析,我这三个分析分的比较粗。第一个是技术领域,包括挖掘,包括处理。包括数据的清洗。第二个是分析方法论的领域,第三个领域是分析时间的领域。做好到数据,这里面可以分的再细,没有公司把三的领域做的都非常棒,我可以负责的说,至少我接触的公司,也有五百强的,无论是世界还是工作的,把这三个都做的很好,很细的没有,但是一定是在三个不同的领域当中形成串联,形成闭环,不管这个闭环的程度多少幼稚。只有这样才知道大数据是为了什么去做。

大数据要做好持久战的心里准备,绝对不是说我上一套算法,上一套系统就可以实现。为什么我借用孙子兵法的一句话,治众如治寡,斗众如斗寡。什么概念?假如说我们要对我们的用户,做这些分析,分析无外乎人口的特征,消费的特征!行为的特征,职业的特征,群体的特征,家境的收入等这些分析。光做单面的分析不行,还要做交叉的分析。

如果我只针对三个人做,我用得着大数据吗,可能三个人我仔细问就可以了,三百个人,三千个人,三万人呢,更多的人呢?当你能从三个人判断30个人,从30个人判断300个人,直到越来越多,无论用户在哪个程度,都能够快速准确的完成这些事情,需要的是耐力,和一种习惯、标准。

同时大数据也要考虑到世俗的一面,数据分析并不是为了在某种程度上寻求真理,实际上是为了追求利益的大化。或者是价值的大化。一个是风险的最小化,同时还要考虑部门间的权衡和博弈。我接触了一些公司,发现了一个有趣的现象。是数据成为内部相互博弈,相互攻击的一个武器,这个事情在酷讯不是很严重。我接触的公司来说,发现有很多的问题,这个例子不以我们公司来说。

一个4A公司用他的数据说服广告主投钱,广告主的市场总监要用数据证明自己的工作是用价值的,但是广告主的销售要用数据证明市场工作不到位。作为第三方,同时要为这几方服务。我既不能说假话,同时还要考虑到各方的利益。如果我是一个部门的BI负责人,或者是一个部门的数据负责人,要考虑这些因素。我说这些问题并不是让大家很油滑的处理这些问题,我只是想说,大数据有的时候在一些地方做不好,并不是数据本身有什么问题?而是部门之间的利益没有平衡好。同时也不要把大数据看的过于高大上。

最终大数据能否发挥作用,还要靠几个客观的因素,企业在产业链中的地位和上下游的博弈能力。就像我刚才说的,我知道大数据怎么去做,我也知道怎么去分析,怎么去实施算法,但是我发现一个问题,就是我没有办法去控制上下游,或者没办法控制所有的上下游听我的。你给他算了这么好,你给他做的这么精准,最后发现不如你的竞争对手投带来的效果更大。

你所能投入的市场资源,有一句话怎么说,武功再高,也怕板砖。我以前曾经接触过一个以A字开头的电商公司。他的算法,他的推荐能力,他的东西成为了行业的标准,他在中国做的时候这套东西遇到了挑战,挑战并不是这套方面有什么问题而是在于竞争对手。他的竞争对手是什么商品好卖,你出什么价格,我比你便宜一块钱。你做了半天,玩到最后就是大家拼资源。这种现象还存在,即便是价格战,也是有技术含量的。现在的状态,就是在拼资源,拼实力,拼谁能坚持下去。一定要考虑你所能投的市场资源,同时考虑竞争对手给你设置的门槛,同时考虑内部各部门分工执行,执行的能力和条件。

酷讯到底在这方面做了哪些工作和尝试。下面我说一下我们酷讯在大数据这边,做了哪些内功。第一个是把握业务需求的关键点,我在决定用什么技术,用什么算法之前,我首先要清楚我们公司的KPI,我们公司的目标是什么?结合这些目标我们能做什么,这点很关键。如果不这么做,很容易形式鸡肋,为了大数据而大数据。

这是我原来做的一个案例,他打算在社区网站上做数据的策略。这个公司大家很熟悉,是现代,这个数据比较早。如果我要做处理,时间很复杂,我拿原来做的案例跟大家分享一下。首先清楚你要做什么,提升业务的关键因素是什么?第二深度的了解业务,提出精准的假设能力。很大程度上是要了解你的大数据往哪发力。

不要认为大数据只有相关性,不求因果性,一定要考虑业务的实际场景。在深入分析上,一定要考虑差异化的问题。回到刚才说的你做任何的推荐,任何的东西,一定要考虑用户为什么,不是简单的表现出数据是什么?

保证大数据坚实扎实的心脏与肺活量,需要扎实的技术架构和技术应用能力。这就是我们现在经过一段时间搭建起来的,以机票为例,从日志清洗,到数仓库的建立,到前端的数据的应用,搭建了一套体系。为了搭建这个做了很多的前期工作,包括日志怎么去规范,这些必须要做,没有这些你的大数据跑不起来。

建立一套算法体系,你要考虑当用户的流量,从引入流量,到完成的转化,整个环节需要哪些算法和理论上的支持,一定要形成自己的东西,包括预测、运营,需求、分析,营销投放、ROI,推荐聚类等。一定要组合起来形成自己的一套方法论。

也要强调大数据的免疫能力,就是数据质量的管理。数据的质量有什么呢?一个是数据的完整性,数据的准确率,数据的容错率,包括结果之后是否有合理性,同时包括排查的速度、效率。最后是大数据的解读,一定要用很清晰,很直观的方法,快速的把大数据的成果,给决策的人员看。这个数据经过处理,我不担心拍照,这是我们针对关键词的投放,一方面是成本,一方面是收入。

排名靠前的,收入也在这个领域,如果出现偏差,肯定会出现问题。包括我们了解某一个OTA,他的出票,是否跟参数值是正常的范围,如果不正常,怎么预测和报警。

大数据需要兼听则明。刚才我说了,就拿航空公司的事情来说,我一定要了解我们航空公司的上游的做机票的人,他们是怎么想的,他们是处于什么目的做决策,数据发生变化的时候,不至于因为某个异常值感到困惑。

大数据到底是哪些事?其实就是这些事,右边是你对客观的环境有一个清晰的认识,左边是要条例化的把工作做扎实。如果有问题需要交流,欢迎会后大家进行交流,谢谢大家。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-03-13 10:31:00
国内资讯 从碳足迹到竞争力 数据中心创新设计趋势前瞻
数据中心是数字经济的核心支撑,设计是数据中心建设和运营的第一步。 <详情>
2023-03-01 19:20:00
国内资讯 IDCC 2022精彩回顾!科华液冷微模块获IDC创新产品大奖!
2月27日-28日,第十七届中国IDC产业年度大典在北京如期而至!围绕“解码可持续发展”,IDCC 2022全方位关注数据中心行业的产融协同、绿色低碳、创新科技,推动数字新基建领 <详情>
2023-02-14 09:40:00