中国IDC圈1月10日报道,1月8日,第八届中国IDC产业大典在国家会议中心盛大召开。本次大会以“新资本 新技术 新格局”为主题,力邀工信部、通信发展司、电信研究院领导,IDC企业、电信运营商、互联网企业、设备厂商等各行业精英齐聚一堂,共同把脉中国IDC行业未来发展之路。其中经尔纬数据技术有限公司总裁糜万军先生应邀出席了大会并发表精彩演讲“电信行业大数据应用发展探讨”。

糜万军

经尔纬数据技术有限公司总裁糜万军

以下为糜万军演讲实录:

靡万军:这个题目非常大,只是结合我自己的一些工作和体会,跟大家分享下。昨天晚上我们聊2014年最重要的是什么?我的回答是最重要的是数据。有一位朋友把这个问题拓展,说21世纪最重要的是数据。

我本身自己也是一个创业者,也是程序员出身,去年8月份成立了经尔纬数据技术。我们所做的工作就是做数据平台,垂直的应用领域,主要是做广告营销,计算社会学跟金融。金融这块,我们本来是想做整合的数据,开发一些信号,给一些对冲基金服务。发现这个效果非常好,上个月我们刚成立了自己的对冲基金,操作的标的,是中国的A股。我现在也是宽带资本的投资合伙人,主要负责大数据实验室,我们投资的金额、标的,从大学生刚毕业的创业团队,一直到最近刚投了估值超过五亿美元的硅谷的一个做移动的公司。

大数据特别热很大程度上归功于奥巴马,奥巴马2012年进行了一个国家战略的方案,跨部委的方案。奥巴马他本身也是大数据技术的一个大的受益者,他在2012年的竞选中,用了崭新的竞选方法论,他招聘了五六十人的数据分析团队,这次他的负责人十月份跟他们的团队进行了交流,他们是芝加哥,给每个选民用了一千多个变量,给每个选民做了动态的模型,每天他的精选团队,每天打电话,写邮件。每个选民有两个分数,一个是会不会去投票,第二个是如果这个选民投票会投谁,他会非常精准的采取一些策略。比如这个人是忠诚的共和党人,他的团队不会花经费在这个人身上,因为做了也没有用。在50个州,他的结果基本上吻合,真实的结果跟模型的结果差不到1%.他不光可以进行数据分析的预测,还可以动态的影响这个结果。

下面写了一个男影星的画面,他们在美国的东部,迈哈曼地区,他们想要影响20岁到40岁女性群体的选票,他们发现这个女性群体,很多人是男明星的粉丝,就让这个人去给奥巴马站台,吸引了很多的选民。

棱镜门以后,大数据上升到一个更高的国家战略高度,今天的新闻说中国刚成立了一个信息化与互联网安全的小组,习主席亲自担任这个组长。

我先讲大数据对冲基金的影响。大数据来讲,对我们的技术人员来讲最核心的就是数据的关联性。瑞银要预测沃尔玛的利润,比如它希望比别人提前一些时间,预判企业的盈利状态,除了他一些传统的方法以外,它购买了卫星图片数据,他希望在卫星图片区获得沃尔玛停车场的数据,以此作为模型的其中一个维度的数据,他可以获得比别人高的优势。最关键的还是获取信息优势,利用这个动态信息来获得别人不知道的知识。

这个信息的时效性,是非常重要的,当时在美国有一个密西根大学的消费者数字,路透社当时某种渠道或者是方法,可以提前两秒钟知道这个信息,他依靠这个两秒钟的时间差,赚了大量的利润。

这是我们去年自己做的一些实盘的业绩,我们2013年整个的大盘业绩不是很好,我们尝试了大概不同的四种策略,这是最差的帐号,最差也有120%左右。这是另外一个帐号,他的特点是没有阶段性的亏损,任何一个时点不超过5%,6%.后面我们要分析理解这个数据,其实很多的是跟我们直观是相违背的,据了例子simpson悖论的数据,这个悖论讲的是你对一个大的数据集进行分析,你可能是需要把这个大的数据结构分成很多的子集,但是你在每个子集发现的规律或者是现象,跟你的整个数据结合发现的规律完全的相反。吸烟跟癌症的关系,这个数据如果你做一个简单的相关性的分析,你可以发现吸烟对男性和女性都有好处,但是如果整合起来,你会发现吸烟对人类有坏处。左上角那个意思是同样的情况,我们分析广告点击率,如果我们分析这些方法,在第一周,第二周的情况,如果我们把这些情况整合起来,发现会导致方法A和方法B完全不一样的结论。现在大家都讲数据是资产,但是怎么真正的理解和应用这个数据,有很多的讲究。

这是另外一个相关性跟因果性,有是数据科学里面很重要的一个课题。看到公鸡打鸣跟太阳出来,这是一个非常强的相关关系。如果有一个领导说要决策,有什么办法可以阻碍太阳出来,如果做一个简单的分析,可能会说把公鸡杀了,不打鸣,太阳就不持续了。这个例子很可笑,但是我们看到经济学家给国家提的政策建议,基本上属于这个水准。

这是我们讲的数据科学另外的一个例子,这个是所谓的开普勒,这是开普勒第三定律行星地一个规律,当时开普勒,从他前面的一代老师拿到这个数据以后,他做了行星围绕太阳公转的周期跟距离的关系。他发现这个数据跟周期的平方成正比,他纯粹是从一个数的角度,发现了第三定律。后来牛顿用完全不一样的方法论,他是用一套方程组,他把这个定义给解出来了,这个两个完全不同的方法。

现在很多的情况,数据越来越复杂,你很难用从头到尾的理论处理,图像的处理,一直到视网膜到大脑里面成像,原理机制很复杂,很难从一整套的机制原理来解释。现在越来越多的,现在用的是工程的方法,从数据直接的反映规律。这种中央处理,我们本质上把它归纳成一个反问题的规律。这是一个图像,这是新加坡国立大学一位老师的一篇论文,我们拿过来用的。

这个大数据是可以把第一次工业革命和第二次工业革命类别的产业变革的大机遇,去年我们一块写一本书,阐述了产业的变革。

这里面最关键的一个就是说,现在不管是人还是企业,很多的情况,不光是数据的使用者,本身也是一个生产者。现在数据基本上是每两年翻一番,从数字的理解,基本上的概念就是说,最近两年的数据总和,是以前历史所有的数据总和,但是从哲学的意义讲,差不多23年以前,耶鲁大学有一个计算机系的老师,他写了一本很有哲学意义的一本书,那个时候在70年代还没有互联网,还没有这个概念,他提出一个概念,说出了物理世界之外,还有一个竞相世界,在那个世界里面,所有的要素,是充分流动的,不管你是人才,还是资金。在那个世界里面,供给和需求是完全充分的,大家都是充分了解的。从我们做技术的角度来讲,就是我们所做的,觉得数据有价值,他会产生很多的关联,数据有很多的维度,可以做很多的关联。从产业的角度来讲,这个数据可以做很多的应用。

现在大家基本上在讨论隐私,其实在讨论隐私在这个时代很难,你在得到很多的便利的同时,贡献出很多的数据。数据基本上有三个很重要的维度,一个就是人,一个就是物,一个就是信息。对应着美国三个最伟大的互联网公司。现在对创业者来讲,我们在这三个维度,某两个维度相结合,可能会产生出颠覆性的可能性。

数据的产业意味,我提了金融的例子,做金融,就是谁拥有独特的数据资产,谁就可以做金融。我们是纯粹做数据的公司,但是去年我们尝试做对冲基金,业绩还是非常好的。

讲了大数据对企业带来的变革,整个的结构会产生颠覆性的改变, 时间关系不展开讲。

这是paradicm提的科学第四范式,他也是从数据驱动的角度来讲的。最近用友的(王文静)王总还发表了文章,他起的标题是叫数据驱动企业。数据这个东西,不管是对国家战略,还是对产业行业,还是对企业,甚至到科学领域,确实发生了非常重大的变化。

我们讲了数据是资产,我们也尝试着怎么评估这个数据资产。我们尝试着建立一些维度跟函数。从关联性,还是规模,还是活性、颗粒度。企业很多的情况下重要的资产是数据的资产。广联达以前是卖工具软件,卖行业软件,但是他现在依靠数据的业务,超过其他的主营业务,可能后续软件变成免费的推广模式。

Evernote是我们投资的美国硅谷的一家公司,改变了全球记笔记的行为。9月份我带北京的几个CEO朋友,他们做传统的行业,他们跟Evernote的总裁提了一个问题,说你们这么小的公司,怎么可以估值到达10亿美元,互联网,尤其是移动互联网对各个行业带来非常深刻的变革。谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-03-13 10:31:00
国内资讯 从碳足迹到竞争力 数据中心创新设计趋势前瞻
数据中心是数字经济的核心支撑,设计是数据中心建设和运营的第一步。 <详情>
2023-03-01 19:20:00
国内资讯 IDCC 2022精彩回顾!科华液冷微模块获IDC创新产品大奖!
2月27日-28日,第十七届中国IDC产业年度大典在北京如期而至!围绕“解码可持续发展”,IDCC 2022全方位关注数据中心行业的产融协同、绿色低碳、创新科技,推动数字新基建领 <详情>
2023-02-14 09:40:00