中国IDC圈7月1日报道,2016年6月24日,由数据中心联盟金融信息技术委员会主办、中国IDC圈协办的"2016金融信息化成果展示会"暨金融信息化技术委员会成立一周年报告会在北京国际会议中心盛大召开。

本次会议持续一天时间,共设置了一个主论坛和三个分论坛,分论坛包括大数据专场、数据中心专场、云计算专场。会议特邀了国内各大银行技术大咖及业界精英齐聚一堂,共同探讨"互联网+"时代下,我国金融信息化发展的现在和未来。其中,百分点集团技术副总裁刘译璟出席“大数据专场”并发表了题为《下一代智能分析技术在金融行业的应用》主题演讲。

大数据-刘译璟

百分点集团技术副总裁刘译璟

以下为刘译璟演讲实录:

刘译璟:大家近期看过Gartner发的魔力象限,IBM并没有消失,它们方向可能代表下一代的技术,我们怎么看这些技术,从我的角度给大家梳理一下,企业里面的数据分析大概有这么三个阶段,1.0、2.0、3.0,整个数据分析深度分成描述性分析,介绍数据是什么情况,我们现状是什么情况,基础之上是诊断性的分析,不止是描述现状我要判断好的或者坏的哪些问题,第三是预测性的问题,高级阶段事实上给我们提供一些建议,不止说你有什么问题它会怎么发现,告诉你应该怎么做适配这种变化,这是数据分析的三个阶段。大多数分析手段1.0时代更多是固定报表的手段,其实BI这件事在1991年1992年提出,BI这个话题当时包含ETL数据仓库,前面可视化三个层面,到今天提BI很多讲可视化内存,把数据仓库和ETL数据仓库扔出去了,更多是在可视化阶段。1.0时代数据库数据仓库的技术一般阐述是固定报表,这个阶段有非常明显的特点就是技术驱动,这有一个中心是技术。为什么叫技术的中心?大家可以想一下现在业务也是这样做的,大家用过SAP、ERP深有体会,每个都是加密的,根本不知道那是什么东西。我把需求交到技术那边去,我自己画一个图,最后报表长这个样子,更多是针对表格,每一列是什么含义,每一行是什么含义,技术给你生成一个表格给你做后续的工作。

这里面业务能做的事情非常少,大多数工作由技术人员做的,包括这次Gartner提出变成引导者,重点是敏捷BI或者自助式的BI,技术人员工作范围更窄一点,相对传统相对以前,会提出一些公共的比如说指标跟维度的体系,描述一级业务中的核心内容,这些核心内容换成模型,上面工具更加强调可视化以及自助式的查询方式,业务人员通过底层人员处理好的指标和维度,可以组合自己想要看的数据的方方面面,这是这一代技术关注的点,事实上还是技术驱动,只有技术人员懂得底下的数据,需要按照某一种数逻辑梳理好。最早提这个指标业务人员开始深度参与,第二个角度使用这些工具,业务人员需要根据自己的需求组合这些,这是辅助的一个情况,但是这时候更加的强调工具的自助以及美观性,这是我们看到这些工具的特点。接下来怎么发展?

接下来的时候一定是智能平台,我们从分析智能交互以及整个特点方面推演一下,下一代整个技术人员做得工作会更加窄、更加专,但是他构建更加复杂更加通用这样业务通用,是一个数据世界。技术人员准备好所有可能性,业务人员能够在上面更加灵活问系统一些问题获得自己的结果,交互和整个展示的方向基于自然语言处理方式自然语言做交互,是探索式问答式的交互方式。并且整个分析工具产出可能不止是一些报表图表会有更多可以交互的内容,文字、语音等等都会有。要达成这个目的核心是知识图谱、自然语言处理等等这样一些技术手段,这个阶段达到业务驱动,业务人员可以随意在这个工具查询自己想要的东西,这点IBM沃森就是这样提的,为什么IBM划在微软这个象限里面,事实上它奔着这个方向走,整个我们看到它未来怎么演进,既然它这样一个趋势我们应该做一些什么,我们产品技术怎么适配这样一个方向?

从数据分析来说到底数据是什么?就像人观察这个世界获得的知识信号一下,数据是我们理解这个世界观察这个世界得到的结果,数据是一个信息。整个数据世界是现实数据的非常好的反映,可以叫做数据世界也可以叫做数据模型,总之反映现实非常多的情况,我们可以拿到相当多类型的数据,我举几个例子金融机构的数据,我们合作来一些出行航班的信息,可能拿到政府公开的数据,能拿到教育方面的数据等等。并且跟以前非IT非信息化手段不太一样一点在哪?我们数据历经全部时间段的,这是人类第一次有这样一个机会我们真的仿佛在四维空间探索,我不在看只是三维空间里面的东西,我在时间维度随便的探索整个社会怎么发展的,所以我叫做数据世界。事实上我们在数据世界去探索发现一些新知识支撑探索业务的发展。百分点把这个过程定义为DDD的模型,数据化,把现实世界通过某种手段转换到数据世界里面去,至少是我现实世界关心的要素,金融里面我关心人、产品、帐户、企业信息我都应该转到数据世界里面。用相应数学元素描述这是数据化。第二基于数据世界我们发现这里面一些规律发现一些新的知识,这是强调数据的一些洞见。我发现这个规律怎么重新反映到世界现实中,业务流程业务模式,这是我们DDD的模型。现实世界和数据世界融合做联系,实时的用户行为,无论是web上都有采集工具数据探头做这些。ERP系统里面的数据怎么接入?还有互联网里面的数据,我们通过日志收集还有数据探头做这个事情。我们关心在用户在微博上怎么评论,用户在百度贴吧怎么评论,需要抓取数据做这个事,所有把现实世界一切我们通过数据化方式放到数据世界里面来。在数据世界之上做很多分析,我们百分点自己最早涉足个性化推荐。这个用户买哪些产品,这是我们目标,消费者消费偏好是什么样子,对理财有什么偏好,风险偏好什么样,收益偏好什么样,他希望什么场景下得到信息的推送,他可能喜欢什么样推送的渠道,希望PC上看到还是APP看到,整个结果给特定的人专门一些知识,整个过程我们围绕核心怎么分析了解人。

一直以来我说百分点做什么事的?用一句话描述就是用数据描述消费者,或者把消费者数据化,这是我们最核心的事,这是分析阶段最重要的事,下一代技术怎么在这个基础上做一些事情。最后我们有分析如何重构自己的业务模式,这里面看到通过整合内部所有的数据得到客户偏好以后我们重新设计一些新的营销模式或者新的促销的活动,形成闭环,现实世界和数据世界交互是不断的,通过演进我们更好描述现实世界,我在上面得到应用更加智能。

要做三个阶段最重要就是数据分析这一层,要做这件事情我们认为有两大引擎,第一个引擎叫做基础引擎,第二个智能引擎。什么是基础引擎?数据分析使用这件事情不是很新的话题,老早以前大家都在用,数据做一些清洗、数据质量的把控,无论是做机器学习方面分析,还是做统计ETL方面都必须用的,我们叫做基础引擎,这里面我们自己定义是一个数据生命周期的管理,涉及到数据如何采集,采集过来如何存储,怎么做质量评估,如何通过数据清晰手段提高数据质量,提高数据质量我如何把多源异构的数据统一在一起,这个上面做一些工作,这是我们定义基础引擎做的事。智能引擎我们认为有两大智能引擎,第一个其实已经历史比较悠久,商业智能BI方面,最后数据是人解读的,人解读以后自己做一个决策,接下来我们怎么办。谷歌搜索引擎广告,现在自动驾驶都偏向这一类的,更多是机器直接做决策,不再说人解读这个数据得到下一步我该做什么,而是机器直接解读这个事我接下来要做什么,这是两类应用支撑这个事情。

重点我想介绍一下说智能引擎我们怎么设想在上面怎么做一些事。简单回顾一下我们基础引擎做的事,基础引擎方面由于我们自己定义数据生命周期的流程,去年发布一款产品大数据操作系统,把它叫做大数据操作系统借了计算机操作系统这个名,计算机操作系统把整个计算机,因为是人和计算机交互界面分成若干部分,文件管理、资源管理,大数据操作系统是人和大数据交互也应该有很多界面,有一些特征,整个计算资源的管理,计算任务管理,人机交互,最重要如何把基础引擎数据生命周期这条整个线、整个流程管理起来,这是我们去年做的一件事情,基础引擎方面的工作。

接下来智能引擎应该有什么,这里面我们认为有三个主要的技术必须支撑整个的分析工作,最底层事实上深度学习这套技术,一会儿我简单介绍一下深度学习为什么在这里面有一个很重要的作用。这是一个底层技术支持,这个之上是感知的技术,相当多跟现实世界的交互通过这个去做,一些自然语言理解,我在下一代整个智能交互当中整个全是自然语言,无论是语音还是文本方式去做,这个机器必须能感知到人这个问题里面语意是什么样,情绪是怎么样,都是基于感知的基础去做。我们认为最核心是知识图谱,实际上是知识的一种表示,构建了关于现实世界很多基础的描述方法,这是我们认为智能引擎里面最核心的三个技术。

其实最重要的当然是知识图谱,知识图谱是实体+关系,这个词可能是新的,应该是2012年2013年谷歌提出来,但是整个背后想法一点都不新。因为一开始做人工智能的时候,五六十年代其实人工智能有一个方向叫做知识表示,很多这方面专家提出来我如何把现代世界的知识表示给让机器了解,提一套方法叫做本体论,在座有专门研究过专家系统可能听过本体这个词,这套系统难以使用里面有一些逻辑推演的手段,后期衍生若干技术来,包括90年代一直到现在很活跃的欲望,还有一类技术叫做分类体系,都是属于这一类技术里面。2012年谷歌为了做好搜索引擎提出我要做语意图谱。百分点一直做用户画像用户有什么偏好,这是属于描述人的通通是一种实体,事实上人的兴趣偏好或者他一个动作关联若干东西,我需要买一个金融理财产品,有人这个实体有理财产品的实体,中间有帐户体系的实体,这是三个实体如何联系起来就是一种关系,整个联系串起来就是知识图谱,知识图谱是对现实世界比较好的刻画。我们现在做的事情不仅是人能够理解这个现实,更重要让这些机器通过知识图谱和手段了解这些知识,从而支撑我们应用。

这是知识图谱的例子,大家看到这里面有相当多的人以及它们之间相互联系,帮助搜索引擎做到基于语意的搜索,梁启超儿子老婆情人的父亲是谁,最终直接给你一个答案,不是像搜索引擎一样找关健词,永远找不到这句话的关健词,真正理解里面到底说哪些人,他们之间联系怎么样的,亲属关系怎么归类的,最后把答案给到你,这是我提到最终我们下一代智能分析的技术会以这样的形式体现,这是知识图谱。构建知识图谱有两个核心技术我们需要了解,第一个技术抽取,我如何从大量原始数据把想要的整个知识结构抽出来,这里面用到很多文本自然语言处理以及深度学习这方面的技术,特别需要解决实体对齐和企业的归一化,我们拿了很多企业信息,从管网拿,也可以从国家的一种工商管理网站上拿,关于企业名称有多种说法,百分点科技,也有讲百分点集团,有好多说法,我对齐形成新的关系,有很多技术工作需要做的。知识图谱涉及到多个实体相互之间交错的关系,涉及到动态的事件,我们怎么从原始的数据里面抽出这些事件,这也是一类核心技术需要解决的。

这我举一个实例,金融行业里面我们所能构建出来的知识图谱是什么样的?这里面有不同节点颜色,描述存款贷款相互之间的关系,存款贷款衍生出来对公个人所得存款相互之间的关系,这是整个业务实体上的关系,最后可能对照一些机构或者个体,形成整个关于对世界我们可以认为准确或者比较接近的刻画。每一个节点每一个实体有一些属性,你对公帐款余额,多少货种、结构等。每一个关系上,这是夫子关系还是什么关系,这需要构建知识图谱,这需要用到深度学习的技术。

深度学习怎么提出来的?深度学习是人工学习网络,我们学要智能能力,比如说我们想飞,飞行是一种能力,我们看看比如说小鸟是扇动翅膀飞的,我就模仿整个结构,我遭一个塑料和木头的鸟,另外一种我彻底研究鸟为什么会飞,最后我得出空气动力学的样子,我完全不用做成那个样子,我可以造成一个飞机,长得也不像鸟还可以飞出来。就有若干的方法,其中一种方法完全模拟人脑的结构,有很多神经元联系起来,神经网络就是这样一个手段,我造若干层次,每一个都是一个神经元,然后推算之间有什么权重,怎么联结在一起的,神经网络之所以诟病就是我可以算出东西,完全解释不了为什么,小狗也可以像人一样思考,但是它想什么我完全不知道,整个大脑结构一样的,但是想法不一样。2006年深度学习提出来以后在很多领域取得了成绩。一直做语音识别错误率一直在20%降不下去,深度学习引入大家看到整个错误率急速下降,跟人整个思考模式更近,这幅图说明这个事情,图像处理方面的层次,人脑本身这个里面分成好几层,整个深度学习得到这样几个层次,对象的形状层次等,整个技术对自然语言的理解或者我们构建整个知识图谱是很重要的技术。本身这方面做了很多工作,我们至少把技术应用到包括情感的分析,里面口碑的提取以及自动化等等这些方面,这是我们产品截图,大家看到里面有很多模块。

基于知识图谱以及深度学习怎么做智能的分析,我们回到下一代智能分析技术怎么去做?整个用户的输入会是一些自然语言的问句,比如张三儿子我行存款是多少?把这个语意用某一种方式表现出来,在整个平台推演应用结果,一种是基于规则符号去处理,事实上我们目前看到沃森里面很多这种方式去做的。第二基于深度学习的方法去做这件事,实际上现在两种手段需要结合,数据少的时候基于上面规则手段去做,如果有大量的数据要做基于深度学习的方法来做。金融行业智能分析架构可能就是这样子,数据上我们得到各种原始数据,交易数据、外部企业行业标准数据,更重要我们获取一些用户产生的数据,这对于整个构建关于世界模型非常重要的。这个基础之上我们整合相当多的数据资源,我们产生用户画像企业画像数据画像,基于这些构建整个知识图谱,在知识图谱有必要的实体,以及实体与实践之间的联系,构建知识图谱必要依赖于业务的知识库,业务的规则以及相关算法模型,这个之上我们呈现出去分析这一层是大概这样一些运作方式,首先用户、业务人员这时候不是技术人员构造了,技术人员负责下面这两层,业务人员会去问一些问题,整个系统做一些推理,数据里面进行实时的搜索挖掘,以某一种可视化形式呈现出来,这是下一代整个智能分析的架构,也是我们现在研究的工作。

举一个案例真的这套系统我们具备以后可能运作方式是什么样子?第一个案例比如说我们有一个分析师VITA他想了解整个市场或者未来国家的经济发展的情况,以便做一些投资的决策,他问整个系统:我想了解一下GDP的情。整个系统会以文字方式给出来,告诉他GDP情况怎么样,走势怎么样,整个数据源从哪拿到的,这是一整套的方法。他其实想要工业方面的GDP,这个语境整个系统分析工业GDP又是什么趋势,还是把数据定义通通给出来,进一步进行挖掘说我想看不同时间点GDP的情况,最后他得到分析结果。可以看整个过程当中我们颠覆一下,我需要自己把图表做出来,业务情况做出来,交给技术开发,探讨需求全部消失了,整个探讨过程你不断问你系统得到一个答案,不止可以做这个事,可以辅助你做很多报表制作分享方面的工作。通过刚才每一个图都给做出来,最后形成自己的报告,这个报告可以直接分享出去,发给一些老板让他接收整个报告的情况。这是我们研究的事,也是我们理解下一代智能分析的技术,事实上不是分析的过程,达到预测以及建议这样分析的层次,不同人问这个系统相同的问题可能得到的结论不一样,这里面有一个理解和推荐的过程。另外它不止是一种技术,事实上对企业里面经验的总结,知识的沉淀,并且对企业

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2018-10-08 10:15:41
智能硬件 健康智能手表问世 升级个人健康管理
近年来,全球都面临着由人类健康问题所带来的压力,人口老龄化和慢性病让社会和家庭不堪重负。 <详情>
2018-08-06 17:54:00
网络信贷 7月份信贷规模或达1.2万亿元 M2同比增速为8.3%
有关记者采访的机构普遍预计,7月份新增信贷规模在1.2万亿元左右,新增社融规模或低于新增信贷规模,预计在1万亿元左右,M2同比增速为8.3%。 <详情>
2016-08-03 18:20:50
大数据资讯 Kyligence发布企业级大数据智能分析平台KAP
领先的大数据智能分析科技公司Kyligence今日宣布正式发布其企业级大数据智能分析平台KAP(Kyligence Analytics Platform) <详情>
2016-01-15 16:04:43
大数据资讯 当智能分析搭上大数据的快车,视频监控又将如何?
目前大数据应用已开始在建筑行业落地实施。视频监控从前端视频技术到中端海量存储到后端的大数据分析,是一个完整的大数据技术应用,目前能提出整体解决方案的服务商,屈指 <详情>