为响应中央关于“健康2030规划纲要、国家大数据战略、‘互联网+’行动计划”的方针,落实国家卫生计生委、工信部关于实施“互联网+健康医疗”服务的工作要求,积极推进我国慢性病防治信息化工作进程,3月29日“2017中国慢性病与信息大会”在北京国际会议中隆重召开,北京天坛医院脑血管病中心大数据研究室主任姜勇出席并发表《脑血管病大数据平台建设》主题演讲。

姜勇

北京天坛医院脑血管病中心大数据研究室主任 姜勇

以下为演讲实录:

今天交流的内容,主要侧重在脑血管病大数据平台建设的一些构建以及我们的一些思考,以期能给我们专病领域的大数据平台建设提供一些参考。

在建设这个平台之前,因为我们天坛医院是国家神经系统疾病临床研究中心,根据管理办法的要求,我们实际上也有这个职责建立国家级的神经系统疾病的大数据临床研究中心。大数据不仅是指数量方面的多,关键是它的来源非常广泛,数据结构也很复杂,多维数据,往往是用新型的数据采集方式产生的数据,数据处理往往也需要一些新的分析方法。

关于大数据这个概念实际上不同的领域,有不同的理解,我们最开始的时候,对这个理解也不够深刻,我们跟IT的人员沟通什么叫大数据的时候他们认为买火车票,12306网站上买火车票那样的数据或者淘宝网站上购物的数据叫大数据,它的特征是高并发,数据库是无结构的。我们说的这些医学数据顶多就是大量的数据,不是大数据。

临床大夫认为国家的流行病学调查搜集到的大量数据就称为大数据,所以,我们在不断地沟通过程中,对大数据的内涵有了一些更深入的理解。首先我们说的卫生大数据完全得益于我们今天所讲的医疗健康的信息化发展。

我们可以获得健康信息的渠道主要是人口信息数据库,还有医院的信息数据库,包括电子病历,居民健康档案和国家临床研究的数据,还有一些生物信息学的数据。当然也包括我们每天都在做的这些工作所产生的数据,比如公共卫生、统计、调查的数据以及一些企业所产生的数据库。

从这些数据的渠道里面,我们可以抽取一些信息,包括个人的基本信息、个人的体检信息、疾病的就诊记录、家族类遗传病史,行为习惯,精神心理信息以及生物学样本的信息等,这些信息汇总在一起就构成了我们的医疗信息,医疗健康的大数据。

随着不同大数据概念的发展,从一开始的三个V到现在的7个V,内涵包括大量、多样、快速、真实性、可视化等。我们在思考脑血管病大数据平台建设的过程分为四个主要的任务,第一个是大数据资源的搜集和互联互通,第二个是大数据的存储,第三个是大数据的分析和挖掘,第四个是大数据的应用。

首先,我们看一下大数据的资源,刚才也大致列举了一些来源,我们梳理一下,主要可以总结成四个方面,第一个方面就是科研的数据库,包含一些临床流行病学的调查、社区队列研究、专病的注册登记研究以及临床实验等。

第二个方面就是临床数据库,也是我们在医院就诊过程中产生的一些电子病历的数据库,这里的数据特点是它的信息比较丰富,内容相对比较准确,还有一些是体检的数据库医院的影像管理数据库、实验室信息数据库等。

第三个方面就是我们的公共数据库,包括公共卫生的数据库,刚才已经说了很多社区档案,专病筛查的数据库,区域卫生平台的卫生行政数据库,还有除此之外的公共类信息,比如说环境的数据库,每天的PM2.5的值和地理信息数据库,人口、交通、经济、教育、社会发展等等。

第四个方面即维度就是物联网数据库,这个也是随着信息技术的发展,产生一些新的数据来源,比如可穿戴设备,我们现在通过手机,通过各种手环搜集到的可穿戴设备的数据。这个数据的特点是整合了多层次的信息,比如平均的步幅,还有不同的地点等等。

我们可能的数据来源有很多。我们现阶段能够利用哪些,哪些是现阶段可以利用的数据,我们大概从这6个方面来获取。

第一个是基于病历首页的数据库,这个是国家卫生计生委搜集信息的每个医院必须上报的信息,里面的信息相对较少,但是它可以作为一些管理类指标来分析,比如说可以分析某科,某年出院病例的人数,出院患者占用的总床日数和平均住院数等等,这些指标可以用于住院管理和卫生经济学的核算,可以计算一些,比如平均住院日,人均住院总费用,人均药费等信息。

我们知道在卫生行政系统中产生的一些指标,由于信息的质量不太一样会在连接过程出现一些问题。为了避免这样的问题,我们现阶段还设计了一个系统,这个系统就是负责进行两个数据库的匹配,把其中一个人的信息列出来进行一些人工的匹配。

最终我们也是得出了这样的一个结果,包括发病率和住院病死率,以及死亡率这样一个变化趋势。我们也可以看到,发病率实际上对于我们流行病学调查来说还是高很多的,这是因为,医院,住院信息诊断的问题,我们有一些管理上的原因在里边,比如我们如果是脑血管病后遗症的患者,如果他要住到神经科,很多医生也会诊断成脑血管病。所以你没法分清楚,这需要在今后的诊疗控制上有所加强,才能让得到的数据相对比较真实。

下一阶段我们也想继续扩展这个项目所能连接的数据库,我们也在积极的与医保进行沟通,期望能够获得医保的数据库,还有一些医疗资源的数据库,未来产生更有意义的分析结果。

第三个是基于原始病历的数据,病历首页只是很简单的变量,真正诊疗过程的一些变量并不在里面。为了获取更多准确、详细的数据,我们也对全国205家医院进行了原始病历的搜集,把所有的病历,用手机拍照的方式传上来。传上来以后,因为有一些二级医院的数据,他也是手写的数据,这些数据,我们为了把他电子化也是提取了主要的关键指标。把它进行人工的入机,这个还是比较传统的方式,我们也期望未来这种卫生信息化能够很好发展。

第四个是我们中国猝中学会的数据,他在全国成立了一个猝中中心联盟,凡是具有资质的医院,要实时把数据上报到我们系统里边,这个报的指标主要是为了促进这些猝中中心医疗质量的改善。有175家医院纳入到这个联盟中,这个是我们通过一千多家医院分析得出来的缺血性猝中医疗执行过程的情况,其中静脉溶拴的比例是非常低的,只有4.1%。

这张是我们今年做的结果,跟之前我们做的疾病登记结果进行比较。之前我们也是通过抽样的方式,获得2007年到2008年的一个结果,还有2012到2013年的结果我们可以看到,静脉溶拴和心房颤动实际上这些指标都有一些进展。

第五个是基于不同任务目标的科研数据库的横向整合,我们也是通过对全国的临床研究以及医学社区队列研究形成了很多数据库,包括一些以医院为基础的描述疾病特征的数据库,还有一些临床实验的数据库,我们也是经过不断地标准化数据结构可,让搜集到科研数据库的信息可以横向的得到更广泛的应用。为了实现这个目标,我们也建立了一个临床信息服务平台,这个服务平台把临床研究的整个过程都整合在这里面,也是一个临床研究信息化的过程,包括临床研究的多模式,数据采集平台,还有临床研究猝中平台,还有随访管理平台和招募平台等,这些功能也处于不断地完善和发展的过程。

我们还有一个单独的系统,实际上是对这些临床研究的信息,数据共享等进行一个很好的标准化,我们是把所有现有的数据库放在网站上,内部人员可以从这个网站上看到哪些护士正在搜集数据,哪些已经完成了数据搜集和清理。在这个过程中,也是实现了数据的内部共享。我们也是在数据的保密期两年之后,对参与这个项目的所有单位和一些外部的联盟机构进行了开放共享。

这个是我们搜集的各个维度的信息汇总,你们可以看到虽然我们搜集的数据总量可能看起来很多,但是在某一些比较具体的领域,比如这些血液样本,有一些数据还是远远不足的。我们现在的数据库也是在往更深和更广的方向发展。

第六个是脑血管病影像的数据,我们传统的影像数据只是通过几个典型的特征进行判别,并且把判别的指标作为变量放在里面。随着我们影像信息系统的不断发展,临床研究越来越多的要求把原始的DICOM格式的数据汇总到国家中心,这就意味着我们将来可以进行深度学习和摩尔识别等,以获得更丰富的模式。

第七个是组学数据,现在随着二代测序技术的普及应用,成本不断降低,组学的数据也逐渐成为我们大数据的一个主角。我们知道一个人的组学数据粗算下来一个人大概300GB左右,这个是在所有人里面大的数据量。

我们也是在天坛医院七院创建的过程中设立了一个小型的数据存储仓库,大概设计容量6个PB,这里面主要是用于临床研究的组学数据、影像学数据、临床信息的存储。这里边还包括一个简单的单经病的诊断平台和生物信息学的数据分析平台,都整合在这个数据平台里面,都在我们新院的启动过程中随之启动,下面就是我们要开展的一些应用。

首先我们对于这些数据进行分析和开发,最终我们也期望得到大数据的一些诊断治疗工具,比如说我们现在肠道的精准医疗必须有五大数据的支持和大数据分析的支持。

另外一个对于健康管理,也需要了解病人的遗传的情况、环境的情况以及临床诊疗信息情况。刚才吴主任的报告里面也提到了,随着信息化的不断推进,区域信息平台的信息不断整合,为我们将来应用这些数据打下了很好的基础。

同时,我们也可以对临床科研做一些很好的支撑,我们以前做临床研究大,最费时间的过程就是入住病人。如果我们有了这样一个平台,实际上可以随时根据他的就诊信息,动态的去筛选病人,随机分组,整个病人的筛选过程就可以简化很多。

对于人群的预防和二级预防,也是一个非常重要的战场,刚才吴主任已经讲了很多了。

最后,就是大数据应用,我们这个数据实际上是来自基层,将来也是要应用到基层,包括各种各样的单位,第一个首先是医院,可以提供医院大数据支持的服务系统,便于管理和培训;第二个是用于医生,提供医生的临床决策支持;第三个是帮助医生基于大数据给予患者个性化的治疗方案;第四个是医疗人员,提供科研众筹的平台,帮助患者更好的疾病管理,防治复发,对患者及其家属进行疾病的宣传和教育。

对于专业人群可以进行个性化的膳食营养搭配,这个就是基于大数据精准智能化的决策的展示。最后对于卫生行政部门的领导,要提供一些结果,有视觉冲击力的结果,把我们大数据的分析结果很好的展示出来,我们还需要建立一个数据可视化平台。这个就是我们对于脑血管病大数据平台的初步设想,也希望我们在座的各位领导和专家多多批评指正,跟我们一起加入到国家脑血管病研究大数据平台的建设,谢谢!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-09-18 16:58:49
新闻动态 2023云天大会|无线电赋能大数据产业高质量发展分论坛:探索无线新动能 助力数字新高地
随着技术的创新与进步,无线电在越来越多的领域得到了广泛深入应用,助力众多产业转型升级 <详情>
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>