为响应中央关于"健康2030规划纲要、国家大数据战略、'互联网+'行动计划"的方针,落实国家卫生计生委、工信部关于实施"互联网+健康医疗"服务的工作要求,积极推进我国慢性病防治信息化工作进程,3月29日,"2017中国慢性病与信息大会"在北京国际会议中隆重召开。会上,北京大学软件工程研究所特聘研究员董艳以《燕云Daas:打破信息孤岛创新数据价值》为主题做了精彩的分享。

董燕

北京大学软件工程研究所特聘研究员  董艳

以下是演讲实录:

董艳:大家好,我是来自北京大学的研究员,同时也是北京大学系统软件产学研转化基地以及北京因特锐公司的代表,下面我跟大家共同分享一下北京大学在打破信息孤岛,创新数据价值方面的突破,也就是我们的燕云Daas。

我的汇报思路主要包括以下四个方面,首先第一个跟大家探讨的问题是在慢病防治这个大数据建设当中主要遇到的问题和困难,刚才姜主任和陈主任都介绍了,我们在医疗健康数据当中也有在健康检查设备当中的一些数据,包括咱们的数据腕表和手机当中的数据。

从这些数据的来源来看我们还会发现,这些数据都在一些信息系统里面或者是一些设备里面,关于这些系统的建设刚才陈主任也说了,HIS系统是不同时期不同厂家来开发的,他开发的数据结构。底层数据的结构不一样,技术的架构也不一样,而信息系统还会很好的完整的来运行,我们怎么样从这些信息系统里面把数据接口输送出来,为数据的利用提供便利。

数据要从底层进行规范,进行标准的提出那是必不可少的,但是我们这个信息系统是会不断的产生,让标准不断的去配合这个系统进行完善,可能也是不太现实的。同时让所有的开发商来不断的配合我们,不断的开发这些数据接口,也会出现一些协调上的问题。很可能会有一些信息系统他的开发商已经不存在了,他的原代码有可能会缺失,这样生成他的数据接口就会成为一个很难突破的难点。

北大一直是研究软件工程的,并在研究软件工程的理论和方法的基础上突破了软件体系重构的技术。能够讲这个软件把所有的互联网上的软件看成我们所有信息的资源。这些软件的接口给他分装出来,成为他的一个构建,通过这种软件接口能够实现系统之间的互通和互联,我们这个技术的产生实际上是在网购软件的研究过程中突破了这个关键技术而产生的,这个技术的研发也是院士团队领导的,经过了863和973的项目持续的资助,突破了这个关键技术,并且走了国际前沿,他是怎么实现的呢?我们看一下,信息系统在运行的过程当中通过我们后台的机器学习算法可以跟踪业务系统,在信息系统运转的过程中提取各种对象的特征信息,并且分析这个数据的流程流向以及他的功能之间相互调用的逻辑关系。无论是什么样的体系结构的运行系统,通过一种镜像把它反射成为一个统一的体系架构的模式,就是我们称为MVC的方式,把它对于业务的接口变成试图交互的逻辑,把控制变成业务功能的逻辑,把底层的数据访问变成数据的访问模型,并且通过逻辑的重构我们能够讲,用户交互的逻辑分装成用户交互的接口,大家也看了,正由于这技术的突破使得我们原有的系统无论是什么样的架构,都不需要原厂商的配合,不需要源代码,也无需底层的数据库的开放,并且我们能够从应用层面、业务层面来讲数据的所有访问功能,读和写都能够生成它的功能接口。

这个技术颠覆了传统的信息系统,信息孤岛这种资源开放的思路通过所见既所得的方式就能够将数据如何访问形成接口,这个接口不光是意识明确,而且它也是基于北大的燕云Daas的技术。我们在因特瑞进行了产、学、研的转化,将它开发成为一个软件的平台,这个平台支持数据开放和共享,而且还支持异构系统之间的互操作,为孤岛系统的集成提供了一个很好的软件平台。

这个软件平台包括了所有数据接口的生成平台,就是API生成平台以及为这个API提供了运行支撑平台。

燕云Daas系统可以为我们每个业务系统,自动的生成一个一个数据访问的功能接口。这些功能接口,跟我们的业务架构是无关的,无论你是CS的,AS的,BS的它都能够生成。最近我们还有更大的突破,就是对于这些设备上的,比如拿小米的热水器来讲,它是一个数控的电热水器,它接口我们也能够生成,这样通过程序对该设备进行控制,我们这个接口生成的方式是一个重大的突破。同时接口生成之后我们还可以以微服务的方式来部署、运行,独立于原来的业务之外。这样不仅不会对原有的系统进行干扰和侵害,而且保证了原有系统的运行的模式不变。当然,我们也进行了一些性能压力的测试,而且明显的感觉我们通过压力测试用燕云Daas形成的接口的运行效率要比原的数据访问接口还要优化。

由于燕云Daas这个技术是从2016年开始推行到市场的,经过一年多的实践取得了很好的成绩,尤其在政府方面取得了很好的效果,可以说是比较喜人的。但是在咱们医疗行业我们也是刚刚开始涉足,目前为止还没有完全的案例。

下面就以我们支持政府数据开放、共享方面的一些成功实践来进行讲解。因为技术是相通的,我相信它也会在我们医疗行业上有所突破。

第一个跟大家分享的案例是运用我们的燕云Daas这个技术,支持贵阳市政府数据目录的活化建设。大家都知道,政务数据目录的梳理是进行数据共享交换的前提,这个数据目录的梳理一定要从业务层面来进行,要梳理出每个业务项,每个信息系统到底有哪些业务项,这些业务系统的数据项都包括哪些,还要分析出各个系统之间,各个委办局他们之间的数据的关联关系,通过这种方式我们可以明确知道这些数据是什么,数据在哪里,数据之间的关系是什么,这是我们进行数据资源目录梳理的一个主要的目标。在传统的方法当中,以前没有这技术的时候都是从底层的数据库来做起,从底层数据库做起的时候,要根据数据字典结合业务、逻辑来去梳理出业务的数据项和他的数据字典。大家都知道,由于数据库的标准不一样,它的每个字段描述的方式也是不一样的。这样会对我们的梳理工作造成很大难度,更有甚的是我知道了这个数据库的结构,也知道了业务系统,但是就是没办法,由于业务逻辑不清楚,所以就没办法能够对应到下面的数据目录的这个项来,这样制约了数据目录的梳理工作。

这个数据目录梳理完之后还要进行数据的一个操作,一般是采用一种ETR导入的方式,将一个数据库里面的数据成批量的导入到指定的数据库,比如基础库或者主题库里面去,这是传统的方式。在传统的方式里面协调的方式很多,大家看右面的协调部门,而且这个数据梳理的时间也是很长的,一般都要一年两年,处理过这个事情的人可能深有体会。有了我们这个燕云Daas之后,我们的梳理方式就跟原来的不一样了,我们都是从业务系统来入手的,从业务系统的应用层面进行梳理,这时候他梳理出来的数据目录直接就是业务项。生成这个目录的同时我们还可以为这个数据的采集建立相应的数据管道和数据通道。

据字典梳理的方式是所见即所得,是一种活灵活现的呈现,通过我们数据接口就可以动态的将数据库里面的数据读出来,而且这个数据是实时的、鲜活的。并且我们数据目录的编目可以根据你的编目原则进行灵活组构。由于出来的都是数据接口,它是一种程序级的接口,我们通过对程序级的数据项的灵活设定和重新组装,就可以按需的、按约的提供一些数据支持,因此说的用燕云Daas这种方式来解决,它是一种变革的方式。

为什么我们能够实现这种方式,就是我们燕云Daas的独特技术,这是我们在贵阳市政府资源数据活化建设方面的成果展现,我们用了不到一个月的时间完成了51家单位,全量目录活化梳理工作,完成了223个业务系统,并且把800多个数据目录活化的生成出来,左边这个就是我们生成的目录,中间实际上就是看我们这个目录,目录和目录之间的数据相互关系。

数据目录出来之后数据的交换就可以通过目录来实现一种管道式的数据共享,这种共享的方式,就可以通过比如卫计委需要公安的数据就可以通过共享交换这个平台。因此我们称这是一种管道式的数据共享交换。于是在这种方式的情况下,我们无需要把数据都搬到共享交换平台后,再建立一个大的数据存储中心进行数据交换,通过管道式的方式就可以实现实时的数据获取,这个数据也是新鲜的,而且是可以进行定制的。

我们还可以通过这种管道的方式,来支持在进行大数据分析的时候,要进行一些主题库、专题库的贡献,如果有一个数据需要公安系统里面的身份证,需要卫计委、住建局的住房的信息,我们通过3个API的拼接组装组装出一个入库的API,就可以将这个数据存储到他的人口数据库里面,这样就会实现按主题的实时信息汇聚。所以通过燕云Daas的支持数据共享交换的方式,不仅使数据目录的建设又快、又好,而且还安全。它无需知道底层数据库的结构而且效率是极高的。另外一个创新,实际上我们在共享交换的过程当中采用了一种管道式的方式,也节约了很多的成本,而且还安全、可靠。

第三个案例,通过管道能够助力政府实现一门式的,就是一号一窗一网综合服务受理,在以前,我们很早就开始了综合服务大厅的建设,传统的方式是把比如卫计的系统、人口的系统、公安的系统、民政的系统做了一个统一整理,将各个系统都放在了这个综合服务大厅里面,但是在进行业务处理的时候,每一个业务员还要分别登陆民政、社保等系统,并没有真正实现数据和流转,有了燕云Daas技术之后就可以真正的通过这个接口来对接,真正的实现数据流转。

刚才说了燕云Daas生成的接口不仅是数据的读写接口,而且还可以把写的接口按照权限进行生成,也是通过燕云Daas的生成平台,将相关的各委办局的系统,对垂直系统、横向的本级系统的录入事项和审批事项的接口抽取进行生成。然后我们可以按照多级联动的机制进行内部的流程重组,用API程序化就可以进行API的重组,设置一些同步写入的数据接口,内嵌到数据流程当中,这样可以快速的实现数据的集中流转。这是我们在一号一窗一网的几个案例,包括了武汉、深圳、北京、贵阳等地多家成功的落地了。

在落地的过程中无需各个委办局配合,我们可以按照权限生成相应的API的接口,并且在这个基础上快速完成整个系统的整合。在深圳,我们用30天完成了9个部门,33个系统,336个受理事项接口的生成。

对于慢病中心的监测和防控工作来讲,这个我是摘自周主任的报告,这里罗列了数据收集处理过程当中的问题和现状,用燕云Daas能够有效的解决存在的问题,比如在数据收集方面、保证数据质量的方面以及数据的共享方面我们都能够提供一些很好的解决方案,而且不仅高效、快速而且安全。燕云Daas会形成管道将这些数据跨时空的运行起来,并且形成一个数据开放、共享和融合的生态环境。不仅如此,我们研究所里还有一个大数据分析平台,这个大数据分析平台,也叫燕云API支撑的大数据计算平台,它跟大数据的统计分析平台还不太一样,里面内嵌了很多机器学习的分析算法,比如自然语言的分析算法和一些视频的挖掘的、机器学习的一些算法,还有一些数据统计的方法,这里面也都内嵌了,而且它还会提供一个建模、分析、运行于一体的环境,我们通过API的接口把相关的数据进行整合,按需导到大数据分析平台里面,通过大数据分析平台的模型进行运行,来进行支持研究式的分析和计算,通过分布式的计算内存来进行处理。

我们还有一个资源构建库,它可以提供一些支持模型,可以支持这些API的重组重构和按需定制。我们北大以燕云API生成的平台为基础,以大数据分析以及构建库为两翼,构建了一个大数据融合、共享、分析、服务的平台体系。我们也希望通过一些工程的实践和慢病诊疗,共同来把我们的技术进行转化,让它为我们的医疗事业也做出贡献。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-12-20 10:20:13
大数据资讯 健全数据基础制度 激发公共数据价值
建立健全各地区各领域的公共数据资源体系,依法依规促进公共数据高效共享和有序开发利用,是促进全体人民共享数据发展红利的关键所在,需要主动适配和积极推动我国数据基础 <详情>
2022-06-23 16:58:58
新闻动态 政策利好加持,IDC如何抢滩数据交易产业?
数据有价值,有价值就有市场,哪怕是黑市。这也正是近年来各种倒卖公民个人信息、个人信息泄露等负面新闻不绝于耳的缘故,数据黑市交易屡禁不止。 <详情>
2021-11-05 10:30:57
国内资讯 深度挖掘数据价值,推动工业互联网走深向实
政策牵引下,技术与工业深度融合,工业互联网将呈现出怎样的发展趋势,行业又将怎样加速工业互联网产业的蓬勃发展。 <详情>
2021-09-01 11:03:03
大数据资讯 “数据湖”夯实数据新基建,大化释放数据价值
数据湖可以有效解决当前数据面临的‘存不起、得不到、不会用’现实问题。 <详情>
2021-09-01 11:01:33
大数据技术 数据湖,将真正释放医疗健康数据价值
一个典型的医疗机构通常会有至少5种以上的数据来源,更多的情况是超过15种数据来源。 <详情>