吕品：Hadoop技术在银行的应用与演进_IDC国内资讯

中国IDC圈7月1日报道，2016年6月24日，由数据中心联盟金融信息技术委员会主办、中国IDC圈协办的"2016金融信息化成果展示会"暨金融信息化技术委员会成立一周年报告会在北京国际会议中心盛大召开。

本次会议持续一天时间，共设置了一个主论坛和三个分论坛，分论坛包括大数据专场、数据中心专场、云计算专场。会议特邀了国内各大银行技术大咖及业界精英齐聚一堂，共同探讨"互联网+"时代下，我国金融信息化发展的现在和未来。其中，星环科技资深架构师、解决方案顾问吕品出席“大数据专场”并发表了题为《Hadoop技术在银行的应用与演进》演讲。

大数据--吕品

星环科技资深架构师、解决方案顾问吕品

以下为吕品演讲实录：

吕品：我们从数仓开始，大数据一方面是分析运用，一方面是底层的应用，Hadoop+boacker，现在慢慢Hadoop各种能力的增强像传统数仓这一块其实Hadoop也慢慢深入进去。我们先看大数据的基础和挑战。我们说四个V，数据量大、产生速度块、数据多样化结构化、半结构化，还有数据非常多，单条价值密度低，总量非常大。像银行可能产生四个问题，存储能力不足、计算能力不足、半结构化非结构化难以处理，数据定位维度太多关联分析能力比较差，数据摆在那里大家不知道怎么分析？这是常规见到的几个问题。

我们从客户来看，我们这边金融客户尤其是银行客户比较多，从我们客户反映情况到未来是这样一个趋势，总体处理数据量会更加大，将来数仓一般处理100T，单表10亿到100亿行的单表，数据加载持续性实时性，数据加载是T+1，T+7定时加载，将来是更多是连续一小时半小时加载一次，或者实时加载一次。数据类型多样化，原来大部分银行核心系统产生结构化数据，将来让数据产生更多的价值，会使用互联网的数据，所以很多数据是机器数据，图片、文本、Json、视频、音频的数据。还有数据联邦，银行系统非常多，小的几十个上百个，大的更多了几百个上千个，数据源非常多，有来自数据库，有来自各个方面数据库。

使用场景大部分这几个场景，一个是固定报表，依然占据70%以上的业务总量。还有比较新的叫做灵活查询，大家银行里面用到很多报表都是根据以前经验积累下来固化下来，怎么产生新的报表这些东西，其实需要靠分析师去不断的摸索的，他们需要在数据上做各种自由的查询，所以它往往查询形式不确定的，会比较多变。还有一类应用主要是BI可视化的交付物。最后我们从用户技能来讲，大数据不仅仅是底下数据还有更多人的培养，我们分为四类人，一类数据科学家，他更多建模思考数据这些问题。一类数据工程师，更多是计算机水平比较好，去建立整个计算机下面工程平台的人。还有一类数据分析师，他们更多运用好这些现成的数据，使用数据科学家提出的模型不断基于每一个场景思考，把真正业务做出来的这群人，最后可能还有一些普通用户，只是随便看一下而已。系统高可用性非常有必要。

我们总结出来Hadoop在银行业发展趋势这几个趋势。一个是应用场景复杂化。数据集成能力持续华、数据类型多结构化、数据源更统一透明，数据获取更灵活自由、数据使用实时化，Hadoop开发门槛运维门槛越来越低不断的下降，这是将来的趋势。这是我们各个银行使用比较完整的数仓的架构图。其实各个银行不管怎么样都是属于这里面的子集，数仓大概怎么样？这是全集，左边是各种数据源，最上面有实时数据，中间是现有系统的业务数据，最下面可能是一些外部数据主要来自互联网，所有数据通过ETL工具，加载到我们整个数仓平台，右边下面是数仓平台存储区域，左边是结构化数据，右边是半结构化和非结构化数据，逻辑上分开的，实际上在Hadoop这边统一存储在一起的。数据存储完以后对外主要提供五个服务，分为五个平台，实时决策平台、离线处理平台、自助分析平台、数据探索平台、检索平台，这五个平台支撑起上面方方面面的各种应用。比如说实时推荐系统基于实时决策平台的，像实时风控、实时预警都是基于实时。还有审计业务更多基于离线的操作平台。还有像担保链分析客户流失常见数据分析模型基于数据探索平台挖掘出来的。

刚才讲了这么多它们大概怎么演进的，大家建立数仓时会发现60%、70%经历花在ETL上的，传统ETL这样，左边是业务系统，右边是传统数仓基于甲骨文什么建立的，经过中间数据加载机进行数据清晰和精加工输入载入的，这是比较传统的。大数据处理ETL过程我们称之为ELT，不是ETL，先抽取再加载最后是转换，转换最后过程放在大数据平台这里面。

我们跟上面图对比一下，上面图大概这样子的，中间是数据加载，右边是数仓，右边这两块实际上被合并掉了放在Hadoop平台，数据加载过来ETL在Hadoop平台内部可以做到，数据进入运用集群计算能力比单一加载机强很多，加载机功能硬件也没有被浪费掉，这样资源利用率更充分一些。数据加载从刚才说T+ 1，一般我们晚上做离线处理，现在往T+0发展，做到半小时之内的延迟，主要体现数据集成能力，左下角数据有多种方式都可以从伸展库导如到我们平台里。还有传统数仓数据处理必备能力，这个什么意思？传统数仓用到非常多的功能，事物性、隔离性的这些东西，Hadoop一开始没有具备这些功能的，所以它没有办法用在数仓上，现在不一样了，基于Hadoop开发很多功能增强这些都完美解决掉了，现在很多银行开始慢慢用Hadoop替代原来的数仓，因为它成本更低。

我们看一下这是Hadoop领域最火的方向叫做SQL ON Hadoop.大部分集中在互联网行业，传统IT行业比较少，价格比较贵，但是会用SQL、数据库开发师非常多，整个产业非常成熟，人力成本相对低一些，我们做得事情就是怎么样让这群会用数据库的人会使用Hadoop，SQL ON Hadoop是比较火的方向，降低了Hadoop的门槛。延伸用程序语言写，SQL ON Hadoop只要用SQL各种标准。运维成本不一样，原来靠各个程序串联在一起，很容易出问题，现在可以靠工作流串联起来。迁移成本非常低，我们提出大数据愿景非常好，做一个项目往往一年初不了效果，动不动一年两年，到了一年两年，我们提的时候还是很优秀概念，两年之后它可能落后了，我们做工程就是考虑快速把项目做出来，用原生开发时间很高，以季度和年衡量，做一个项目需要一年两年，有了SQL ON Hadoop基本上一到两个月为单位进行迁移的，这样迁移速度非常快。

我们有基于各种东西的优化，这个东西不细讲了，基于代价的优化手段，为什么有这么的优化？还是降低门槛的作用。我们有三张表，前面两张是一亿行，后面是一万行，我们优化器代码是这样，前面是1亿乘1亿，后面是1亿乘1万，像这样东西有了业务人员可以写出比较粗糙的代码，实际上出行非常快，这是一个趋势就是自动化优化。

我们有一个场景叫做事物处理能力是一个关键，Hadoop设计是为了处理认知用的，设计的时候是一次写入多次读取，它不支持修改的，实际上我们有一些场景，这个场景经常见，拉链表的场景，我们比方说每一个帐号在银行系统里面实际上每天有一个状态，你每天晚上大概多少的余额，会有一个状态，我们叫做切片的一个信息。实际上它在真正做各种业务需要变成拉链的情况。比如说A帐户5月1号有一个状态，5月2号有一个状态，都是4439元余额，它在做的时候需要把它变成统一的状态，A这个帐户4439状态从5月1号一直持续到5月3号，从5月3号到未来一直没有变大概是八千多，把状态信息最后变成分段的信息，我们称之为拉链，就是这个表从前面到后面其实涉及到数据的修改问题，原来用开源Hadoop做不了的，拉链表场景应该是大部分银行业务系统里面最常见的操作，有了事物这个功能以后这些场景都能满足，Hadoop这个东西可以在银行里面涉及到更多业务。

我们看数据集市能力，数据集市跟业务人员接触更多，未来是灵活、交付、查询等。OLAP是连接系统能力。关系型数据库场景两种用法，一种是ROLAP，我们把数据拆分事实表、维度表，放在数据库，是冗余非常低的模型，空间要得非常少，你查询要各个做查询才能对某一个表做探索，查询效率非常低。还有我们用的MQLAP技术，把结果提前算好存在数据库里面，你真正用的时候做检索不是真正计算，这个速度非常快，这是传统两种做法。第三种做法有一部分是算有一部分是存，大概这样的做法。Hadoop跟上面类似有两种做法，一种是预计算的做法，我们把数据存在Hadoop平台上，我们通过一些任务命令，我们晚上离线把所有该用的结果可能第二天被检索到结果都算出来，直接算出来存在一个介质里面，白天检索就可以了，这个耗费大量的时间但是检索非常快。

还有交互式的OLAP技术，我所有查询你查询命令发下去同一时间真正实行，这没有预计算，事先的存储，它是比较干净的做法，我们开一个列式缓存技术，数据缓存在SSD等里面，我们十个节点做一百亿一个记录计算只要10分钟以内，一百亿非常大的数据量，大部分银行不能达到这个数据量，单表一百亿，我们十个节点就可以做到，这个客户在甲骨文里面用的，原来做计算不敢那么计算，一亿的记录就要20几个小时，这个差别是非常大的。

我们看一下它模型也会有一些转变，就是原来我们刚才说符合第三泛式，新型或者雪花型模式，我们有一个交易像用户信息、商家信息、交易类型拆成单独维度表，这个东西在Hadoop这边我们做一个模型转换拉成一个宽表，把所有问题提前收集起来提前交在那里，会带来数据冗余，但是有一个好处空间换时间，计算非常快。

基于主题模型，我所有主题提炼收集起来，我看这一张表看懂了，我就可以成为这一个业务模型的专家，里面可能有几十个字段，我根本不需要自己找关系，这对业务人员来说是非常非常友好的事情。

后面是BI的演进，现在国内做BI厂商非常多，我们有很多合作伙伴，他们有一个前进方向是什么？他们的逻辑也在转变，原来BI更多是应用服务，我们上面划一条线，下面是数据库服务器，上面是BI服务器，我们原来把数据存在数据库，做BI、报表展示的事情，把数据从数据库拉到BI数据库里面再去做的，所有的处理都是在BI里面，数据库只是简单数据库，存数据用的不涉及计算，中间有一个步骤非常慢，就是UCS这里，把数据库拉到另外一个数据库非常慢，在关系型时代没有问题，到大数据时代有问题了，大数据量非常大，我们把Hadoop抽到BI再去分析这个抽的过程很慢，几百万行数据抽到BI需要十来分钟，我点一下按纽提一张报表10分钟过去了，这个肯定不行，大数据时代我们把数据下压到数据库这一层，把计算压到Hadoop这里，只把计算结果拉到BI展示，上面BI是一些机构，上面一些虚线表的结构是虚拟的映射，真实数据在Hadoop这一边，我对各个表进行加工操作，引发SQL指令，真正执行下压到Hadoop这一层，把整个计算做成，做出最右边一个一个报表，把报表几百行几千行数据然后再抽上来，这样整个过程非常顺利操作非常方便，不管国内国外的BI厂商都是往这方面发展的，我们Hadoop这边跟很多BI厂商有合作，就是我们完成这样一件事情。

后面是数据联邦半结构化非结构化数据的处理。我们可能大家知道只有DB2、甲骨文这样的数据库，互联网里面用的各种非关系型的数据库，这些都是数据源本质上不是数据库都是存储介质，都有各自的一套API，你要成为很牛的人要理解每一套存储的API，我个人学两三套我再也学不动了，将来怎么用这个东西？就是降低它的门槛，我把这些东西全部分装掉，通过统一接口连接抽象层，个个驱动器把下面的数据都统一起来，我所有操作人员在HadoopSQL进行操作，数据源到底在ES还是HBS上我操作员不需要关心，Hadoop厂家完成从SQL到关联数据库的关系。操作人员不需要管下面各种的API，我只要会思考懂业务所有都可以搞定，让专业人做专业事情，平台厂商专门做技术，银行这样的业务公司把精力专注在自己业务上。

综合搜索讲的一个事情，搜索像原来大家有感觉我查银行转帐记录只能查一个月，为什么？因为那个记录存在很贵介质里面，如果我把几年都存进去，一个存不下来还有一个很贵银行不愿意这样去干，用Hadoop成本很低我们把一个人所有记录都输进去，你想查哪一年都可以，我们分冷热数据，冷放在一部分地方，热的放在另外一个部分，让开发人员自己理清楚哪个在哪个地方，我们分装整个存储层，上面检索平台提供各个业务，但是它也是被分装起来，最后业务人员看到只有统一数据接口服务，不需要关心我的数据存在哪里，我只知道我用到这些数据就可以，彻底把业务人员开发人员隔离开了。

半结构化、非结构化的处理，越来越多的文本、图片、视频、音频这些数据将来都会在Hadoop平台这边被利用起来，我们可以通过自然语言处理，视频特征提取把视频音频文件理解成结构化数据，最终存回到结构化数据这一边，整个操作在大数据平台完成速度非常快。

最后有一部分是实时研判的能力，这是什么意思？现在数据越来越讲究实时化，我们很多数据过时无效，一个数据产生一瞬间是有效果的，举个例子比如说机器预警，我发现一个机器负载不对可能漏电什么情况，我过一个小时发现机器早报废了，我们抓犯罪分子，一个摄象头抓拍到了，我们要实时上报，如果一天再上报他就不知道跑哪去了，手环或者刷卡信息产生一瞬间会到我们平台这边，我们平台进行数据处理，跟各种数据一关联，比如说我做一个机器分析来看，这个机器负载高了，我这有一个报警发到运维人员的手机或者运维人员的邮箱，运维人员可以采取停机这样的操作，这是实时的处理方案。

最后我们有几个行业应用，我稍微简单的讲一下，一个非常典型的自助分析平台的应用，这个应用在银行里面我们大力推广的，将来很多银行里面看到，银行大部分业务比较老，以前人靠自己脑袋固化下来的，现在很多新场景发动大家广大人民群众力量想出新的东西才有效果，不是靠专家几个人做出来的。我们这边其实结合银行的场景开发了这个东西，银行将来东西在总部同一存放，分行支行下面业务人员他们用自己权限自己帐号连到这个平台上，然后可以根据他自己权限获取一部分数据，对他自己感兴趣的数据进行各种分析，将来他们对数据分析以后产生有价值的模型可以在行内相互交流。最后把有价值的模型固定下来成为新的模式，大概将来就是这种模式，靠广大人民群众的力量，靠一个人脑洞不够大，靠整个行所有脑洞把这件事情充分的挖掘。这个平台价值在民生有一个阿拉丁的系统大家比较熟悉了，它其实已经做这个事情，就是所有数据都在北京总部，各个分行会分几个帐号给他们，他们有权限业务人员连上来做业务，最后它们靠整个平台进行交流分享模型，类似这样的东西，这是民生的模式。

这是另外一个用户行为日志分析系统，这个东西在很多地方很常见。这是我们银行客户的，它主要针对的数据是网上APP电子银行的数据，用户通过APP或者通过网站登录进行一系列的操作，比如说充值、贷款、加油，后台产生一系列的日志数据，这些日志数据很有价值，我们把这些数据收集起来进行分析，我们分析点击流，达到什么效果，可以提升级APP我们点充值按纽，我们需要登录门户点四五下才能点到充值，发现70%80%都需要用充值的按纽，充值按纽说明放在在里面了，我们拉到外面来提升客户体验。还有推荐系统，我根据你以前的点击记录，你东点点西点点，后台有信息，你经常点一个东西最后没有买，不知道是因为价格问题还是不够优秀问题，后台人员分析这个产品，价格原因我们给你一些优惠，质量不够好我们是不是换一种质量更好的东西替换它，类似这样东西推荐可以发现。还有实时推荐我们做一个案例在上海那边消费陆家嘴东方明珠那里，你在东方明珠消费登观光塔，大部分选择去另外一个地方吃饭，你刷卡一瞬间我们产生一些记录，我们根据关联匹配规则我们推荐隔壁有一个餐厅比较好，你喜欢吃西餐我们推荐西餐厅给你，喜欢吃中餐我们推荐给你推荐中餐厅。

对于开发运维来说我们一般一个机器设一些警告值，我这个机器CPU达到80%90%负载不正常太热了我要发一条警告信息，这个实际上没有意义的，我们系统晚上基本上没有人用指标一定非常低的，负载非常低，我们白天正常水平是80%，晚上正常水平是20%，你监测60%的警告线其实没有任何意义，所谓告警线本身应该是动态的，白天我认为你超过80%就报警，晚上我认为你超过20%就告警，这样告警线才有意义，这样东西我们通过日志系统分析建立一个动态模型，这个有十几的案例了。

我们还有智能文本分析系统，现在有很多爬虫，爬百度贴吧、论坛等爬下来很多数据，在大数据平台进行去重、格式化、预处理类似这样的操作，归一化这样处理，我们生成非常好的数据源，供后面数据分析师进行分析，向自然语言理解，深度学习、机器学习等，把分析成果供上层做一个数据展示，所有模型依靠这个建立的，我们这个模型做得非常少，市场上有非常多的模型公司针对某一个场景或者某一个行业建立这样的模型。我们形成企业知识图谱，将来企业数据靠文本挖掘方式可以建立各个企业或者企业之间的全貌，将来不管是管理还是去发现一些新价值，他的门槛就更加低了。

总得来说我今天主题意思就是说Hadoop在将来各行各业，尤其是金融行业，它的涉入越来越深，Hadoop使用门槛越来越低，大家使用起来更方便，我们认为将来Hadoop这个东西在很多的地方产生重大的价值，非常推荐大家去学习这个东西。今天我主题就到这里。

来说拓展这种能力，这种能力不在是个别技术人员或者业务人员身上，以系统形式落地到企业里面来，这是我想跟大家分享的未来智能分析技术怎么演进，以及相关技术实践怎么去做，谢谢大家。