为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办、大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重举办。

会上,来自工业和信息化部的领导,我国众多优秀大数据领域服务商、行业应用客户、研究机构、地方大数据主管机构的领导和专家,将对大数据政策、产业、技术的现状与趋势等内容进行交流探讨。

6月5日,在数据资产管理分论坛上,中国光大集团高级业务经理刘巍为我们带来了《集团企业数据治理实践经验分享》。

vbox10161_3K6A5378_150044_small

各位下午好,我是来自于光大集团的刘巍,我从2008年开始在光大银行从事数据标准工作,一路走过来,我做数据的工作有将近20年的历史,应该是数据战线上的一个老兵。我今天演讲的题目是《集团企业数据治理实践经验分享》。

光大银行上一路走过来,从数据标准开始到数据质量,再到数据模型,最后上升到数据资产管理的视角,不仅是我们对于数据认知不断深化的过程,也是我个人在其中不断学习的过程。

一、光大银行数据治理历程

大部分企业、银行的数据治理工作都是从数据标准开始的,我们光大银行从2006年开始就在做数据仓库。在做数据仓库过程当中,第一个遇到的问题就是数据标准的不统一,所以从2008年我们就开始做数据标准体系的建设,并同步建设数据字典,大家的历程可能都差不多。做了四年数据标准以后,我们发现只有数据标准是不够的,而且在整个数据标准的执行当中面临了很多的问题。于是在2012年的时候,我们启动了一个数据体系的规划,把数据治理的组织架构,包括数据质量、数据安全与合规、元数据管理、数据治理体系和数据治理问责,并且按照规划去推动实行。

在2013年到2015年之间,我们一直在围绕数据质量以及整个数据治理做评价指数——也叫能力化指数的工作。从2016年和2017年之间,我们做了指标管理。到2016年底的时候,大数据的浪潮就扑面而来,正好我们第一个规划期结束了,这时基于大数据的要求开展了大数据治理的工作。2018年的时候我们又启动了数据安全、数据模型和数据应用,这主要是因为2018年5月份银监会发布了数据治理的实践指引,所以我们将数据应用纳入到数据治理的范畴。

光大银行的数据治理整个历程就是上述这样的,在这里头我想给大家分享几个关键点。

第一个关键点就是我们为什么从数据标准走到了数据的体系规划和数据质量的转折点。大家也知道在做数据标准时,建很多系统,要做标准的落地。我们落地的时候面临了非常多的困难,找不到应用点,如果单纯的为了数据标准的执行,说实话是一个非常伤筋动骨的事情。我有一个最经典的案例,当时做了一个证件类型的标准化执行,整整耗时一年,改了二十多个系统。这个效率是非常低的,这样如何去推动数据标准的执行和落地,如何去推动整个数据治理的工作?当时银监会出台了相关指引和要求,同时我们自身也面临很多标准质量的要求,借此我们构建了以提升数据质量为目标的整体数据治理的方案,往这个方向走。

第二个关键点是整个的数据质量和数据标注到数据模型的转折,这个我估计大家也有共鸣。数据管理有很多的组件,包括数据质量、数据标准、元数据、数据安全、数据合规、数据架构和数据模型等等,都是管理,管理什么呢?大家肯定说管理数据,那数据是什么?这其实一直是萦绕在我心里的一个问题。我们如何去把数据给大家呈现出来?

2014年,我发表了一篇文章叫作《数据管理的核心对象》,把核心对象这个名词提出来,我心里清楚得很,是数据模型。但因为当时我们整个数据架构与模型还在规划处,没在数据这一部分,所以其实当时并没有提出“模型”这个词。自从银监会的指引出来以后,我们正式启动了企业数据模型的项目,做数据资产的管理以及盘点的工作。所以我们整个历程中也不断地演变,不断地推进,逐步地从标准开始,以解决数据质量为目标,走向了整体数据资产管理的方向。

在这个过程当中,我们一直秉承着一个思路,就是“以应用驱动,以用为先”。庞大的体系架构可能是需要花费大量的资源和人力投入,我们的数据治理之路就是在现有条件下,能够去用我们的能力,一步步地前进。

企业级数据模型的框架

下面简单介绍一下企业级数据模型的框架,企业级数据模型是数据资产管理的核心,我刚才提到。数据是什么、它长什么样?我们当时构建了整个的数据模型框架,它们会有一些业务的分类,分类项下会有实体和属性。这个其实仅仅给我们提供了一些目录,同时分类项下还会有物理的属性,就是这些数据都存在哪儿,也会有数据的源头属性,就是数据都从哪儿来,也会有一些管理的属性,就是说这些数据都归属于哪个部门,它是不是标准的,是由谁生产的,谁在使用,还会有一些质量的属性。实际上整个数据的管理就围绕这个模型来去构建,相当于有一个数据的实体或者是一个数据的对象,这样我们所有的管理要素以及本身的属性的要素都会在上面构建。有了这些要素以后,把这些数据都填全了,我们就可以去找数据、看数据、管数据、用数据。我们经常谈到的数据资产地图、数据的血缘分析和数据的自动调用,可能都是基于这样的一个整体的企业级数据模型构建的。真正的企业级数据模型把所有的内容在管理活动中填进去以后,实际上落下来的就是我们的元数据。

在整个企业级数据模型构建的方法当中,所谓资产就是要盘点。盘点有很多种,其实是从整个数据的产生的源头就在盘点,并且从生产阶段一直到后台的加工阶段进行全流程的管控。之前我们调研建行,他们也是结合新一代的建设,进行了全行的企业级模型的构建。但是对于我们这种中等的股份制银行来讲,这种难度是很大的,除非有一个非常大的契机,领导说你们要另起炉灶,可能还有这样的机会。据我们当时了解,有些银行就从下而上,我现在仓库里有什么就全部都算作我的数据资产,再逐步地看用的情况去整理、去完善。我们当时希望走一条相对折衷的路,因为怕上面没有一个整体的框架,下面一大堆的梳理没有方法,就可能会有问题,所以我们当时采取了自下而上和自上而下相结合的方法。

我们是从业务视角构建的框架,我们的最终理想目标是这个资产地图面向我们的业务人员,能用他们看得懂的语言、能看明白的方法找到这些数据。

我们仓库里有很多这样的数据,我按照业务的条线,在上面有一个框架,在下面逐步梳理,做这样的盘点,同时也要考虑到如何验证这些实体是不是可信的。验证方法是通过业务流程来串联实体,定义出实体以后,用业务流程来去串,如果能串通的话,这个实际提出就是对的,如果串不通的可能就有缺有少,按照这样的方法来做。同时我们还有一些后继管理机制保证这些实体能够持续维护下去,这个模型的内容能够持续维护下去,这是我们企业模型的构建方法,之前在银监会一等奖的材料里都有很详尽的描述。

前面谈了光大银行的数据治理历程,包括对于数据资产管理比较重要的模型方法。但是我个人理解这些还不叫数据资产,一定是可定价、可计量、可变现的资产才能叫资产,现在这还是属于用的阶段。我们的目标是转向数据资产运营,只有那样才有可能变成数据资产,全链路、全生命周期的管理也是我们终极的目标。

我们要解决什么样的问题呢,第一就是数据都在哪儿?在这个大数据时代,整个数据分布在不同的地方,用不同的存储。原来我们行的数据都在仓库里面,现在可能还有一些影像、一些非银行数据存在其他的数据库平台上,我们如何构建一个框架,能够找到这些数据,并且能够实现这些数据的互通互联,是要考虑的。

第二就是在整个数据资产里面运营要有哪些产品。如果把数据运营和价值变现当作数据工厂来看的话,它是有产品的,有产品自然就会有分类、有框架。数据本身也是有分类的,我们要规范化地管理它,给它标上各种属性,给它管理元数据,这些都是要有分类和框架的,这个分类和框架就是元数据的模型。指标本身就是一个元数据模型,刚才提到有指标管理,我们在2017年的时候发布了一个行业标准,就是商业银行的指标数据源规范,这本身就是元数据的规范。目前我们的数据分成了基础类的数据、代码类的数据、指标类的数据,应用领域还有标签类的数据,将来的数据模型作为资产的一部分,可能也会有一些属性的描述,也会是一类分类。

第三,整个数据资产的全生命周期如何管理。有很多数据资产管理的工具,给我们生产线奠定了一个很好的基础,但是生产线里跑什么,怎么把生产线持续运转起来,都是要一点点往里填的,这个工作也是很繁重的。

第四个就是这些数据资产、这些产品怎么卖,这其实跟数据资产运营模式有关系。之前大部分的情况,在银行里都是业务部门提需求,我们去用,是一个定制化的方式。但是现在大家都在提生态、提开放,我们面向的可能就是我们最终的用户如何去应用,如何提供一些标准化的或者是有市场价值的产品推向市场。换句话说我们必须得去当销售,得去经营推销我们的产品。最后就是这些产品通过市场的检验,如何去定价变现,这涉及两部分,一部分是定价,一部分是成本。如果没有之前整个的标准化和规范化的生产过程的话,很难做到数据的计量。标准化和规范化是我们做数据资产定价的一个基础,因为它是成本计量的基础。

在整个全链路数据工厂、数据资产运营和价值变现的过程当中,我认为核心就是标准化和规范化并且逐步走向智能化的过程。这个智能化有两个含义,一个是面临的数据产品逐步走向数据分析挖掘应用,人工智能技术,它是一个智能化。数据资产运营这种管理的业务也可以智能化,我之前已经看到有些公司通过知识图谱,或者通过自动建模,或者做一些标准的比对,自动地来协助数据的管理工作。因为大家也提到数据管理工作涉及面特别广,纷纷杂杂,各种人工的比对、数据质量的核查和分析,巨大的工作量,如果有一个标准化的工作流程,这些元数据能够积累下来,可以借助智能化的方法去提升整体的运营效率和管理效率。这是我对整个数据资产运营的一点理解,

二、集团企业的数据治理经验分享

去年我们集团提出进行整个的战略转型,敏捷、科技、生态。领导觉得在整个集团数字化转型过程当中,数据治理是一个很重要的工作,尤其对像我们这种之前信息化能力比较弱集团,如果数据治理和标准先行,对将来防范数据孤岛进行数据共享和整合会起很大的作用。之前我觉得光大银行有这么多相关经验,可以把银行的经验拿到集团去做。但是事实上,在整个集团企业数据治理的道路上,我觉得面临非常大的困难。在这里给大家分享一下我们面临的挑战以及可在这条道路上去寻找的一些可能的对策。

集团企业是一个多业态、多级法人的治理结构,给数据治理确实带来了很多挑战。在业态上,光大集团是一个大型的国有金控集团,下面大概有14家一级企业,除了有金融行业外,还有中青旅,还涉及生态环保产业、养老产业等,业态非常复杂,各企业的数据差别非常大。在多级法人上,也依然面临困难。数据合规的问题实际上前几年可能会好一些,但是现在其实已经上升到了一个前所未有的高度,以后难度就非常大了。

主要挑战有四点:

1.数据治理的基础性和价值呈现之间存在天然的矛盾。刚才南方电网的陈总也说,我们做了很多的基础工作,又苦又累,但是不知道往领导面前呈现什么,领导很难听懂你这种专业性的东西,你的价值在哪儿,能给我多少钱,能挣回来什么。事实上这是先有鸡和先有蛋的问题,如果领导不认可的话,对整个后面的人力财力的支持是有很大的冲击的,一定需要考虑这个问题。

2.跨企业的数据采集有着巨大的合规风险。尤其我们还有一些国外的企业,包括在香港上市的企业,还有海外企业,跟现在国际上的数据治理法规都要匹配和遵守。

3.多业态、业务多变性使得标准化的复杂度激增。很多行业都有现成的行业通用的共性,比如银行业。但是实际上在很多其他行业是没有行业通用共性的,包括环保产业等都是没有模型的。我们怎么在集团层面构建这样一个模型,做这样的标准化,复杂度很高。

4.复合型专业数据人才缺失是最大的制约因素。一方面我们既要了解行业知识,另外一方面还要把它作为资产管理起来,对人的要求非常高。

面对这些挑战,我们也有几个对策,拿出来跟大家探讨一下。我们认为共享、合规、创新是应对集团企业数据治理挑战之关键。

对策1:协同的组织机制。有很多高阶的数据治理的组织架构,但是对于跨国企业,在组织架构设计上,需要更多地去想以价值创造和资源整合为目标,和各个企业之间进行利益共享、风险共担,并且设计相应的考核指标,共同建立多企业间协同的组织机制。

对策2:业务场景驱动。刚才提到了数据治理的基础性和价值体现之间有天然的矛盾,其实我觉得业务场景驱动是一个很好的方法。找一个确定场景打开业务链路,通过可视化的方法向领导呈现我们的价值,同时还可以在专业条线进行培养专业人才。因为不一样的业态、不一样的行业,对于数据的专业人才要求也是不一样的。

对策3:标准规范贯穿。整个数据资产运营本质上是规范化和标准化的过程,在这里头包括资产分类、主题的数据标准、元数据的标准、元数据模型的标准等等都要逐步制定,以达到各企业之间的一致和协同。

对策4:顶层合规设计。关于法律合规的问题,合规的复杂度上升到前所未有的高度。在这个层面上我们要有一个顶层的合规设计,原来只是内部做一些安全的处理分级分类,这是传统做数据安全的做法。但是在《网络安全法》和国外的GDPR各种法规规定的前提之下,在顶层设计阶段就要考虑合规,因为它直接决定了我们的技术架构和架构的设计是不一样的。

最后,我想跟大家分享一下整个数据资产的运营,我个人认为它是集团企业数字化转型的最原生动力。回顾一下整个做数据的过程,第一就是业务的数据化,把业务变成数据放在系统当中。第二个就是数据的资产化,把数据作为一个资产来进行运营。第三个就是资产的场景化,为什么这么提?实际上是说我们所有的数据要提升质量,把数据变成资产,丰富它的内容,是需要场景来设立的。这样形成一个闭环的流程后,就会把我们的业务场景逐步变成数字,又变成数据、变成资产,循环往复,这样一个过程,最终来实现企业的数字化转型的工作。

我今天要讲的内容就到这儿,非常感谢信通院给我这样一个机会,也欢迎大家和我交流、分享。谢谢大家。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-08-12 11:58:32
大数据技术 国内首个基于大数据平台的全流程数据治理方案亮相
近年来,银行业的市场竞争格局变得更加严峻,同时随着互联网技术与智能设备的成熟与普及,用户入口发生转变,触达银行客户的主要渠道从线下物理网点转向数字终端与生活场景 <详情>
2019-06-13 09:51:54
国内资讯 数梦工场崔晓峰:数据资产需要可治理、可管理、可共享
服务于25个以上部省级客户、100个以上城市级客户、拥有150多项专利、通过CMMI5级软件认证……这些都是数梦工场在2015年成立以后,短短4年内取得的成绩。 <详情>
2019-06-11 15:52:00
国内资讯 现场直击 | 2019大数据产业峰会
为了深入落实国家大数据战略,推动大数据产业交流与合作,展示我国大数据产业最新发展成果,2019年6月4日至5日,由中国信息通信研究院、中国通信标准化协会主办,大数据技 <详情>
2019-06-11 11:31:42
国内资讯 2019大数据产业峰会| Datablau王琤:EDW2019-国际数据管理最新趋势
国内跟西方有很大的差距,西方行业里数据湖架构讲了很多,国内目前行业内讲得还是比较少。国内大部分都是把大数据平台当储存来用的场景,数据湖、数据海、数据池塘等等很多 <详情>
2019-06-11 11:22:36
国内资讯 2019大数据产业峰会|中国信通院王妙琼:时序数据库性能测试基准解读
时序数据库的功能标准主要是六大块内容:功能、兼容能力、安全性、管理能力、容错能力、扩展性。这些内容综合了互联网、物联网、工业互联网这些场景里通用的需求,也保留了 <详情>