2019大数据产业峰会|清华大学软件学院教师金涛：健康医疗数据安全指南标准研制与实践_IDC国内资讯

为了深入落实国家大数据战略，推动大数据产业交流与合作，展示我国大数据产业最新发展成果，2019年6月4日至5日，由中国信息通信研究院、中国通信标准化协会主办，大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重开幕。6月5日，大数据安全论坛隆重举行。

宁主任的演讲展现和证明了医疗卫生行业数据安全涉及民生安全，保障医疗卫生的数据安全也是我们现在的一个底线要求。接下来有请清华大学软件学院金涛老师为我们带来主题演讲《健康医疗数据安全指南标准研制与实践》，有请金老师。

清华大学软件学院教师金涛

各位领导、各位专家，非常荣幸有机会在这里跟大家一起交流一下健康医疗数据安全指南标准的研制与实践的情况。

前面宁主任非常系统全面地介绍了健康医疗领域目前面临的信息安全的风险挑战和问题，也给出了很多的建议，也提到了这样的一个国标的制定，下面我就具体展开详细介绍一下相关的情况。

主要介绍四方面的内容：1.标准起草的时候所遵循的基本原则思想；2.目前标准的定位；3.目前标准的内容；4.相关的验证实践的相关工作情况。

一、基本的原则思想

在前面宁主任都提到了，安全和发展的关系是习总书记在“4.19讲话”当中非常重要的论断，47号文当中已经明确了在健康医疗大数据的利用上，要坚持安全为先，保护隐私的原则。也正是因为这样一个明确的原则，所以导致在健康医疗数据的开发利用上面存在着一些障碍，往往很多时候大家很担心数据安全相关的问题，所以在健康医疗数据开发利用上有所缓慢。去年9月份卫健委发布这样一个文件当中就明确了标准安全与服务的关系，安全并不是我们的最终目的，我们做安全的目的还是为了更好地做服务，还是希望能够通过标准化的做法在确保安全的前提下推动健康医疗数据的开发利用，因为大家都知道，健康医疗数据的价值是非常高的，只有它能够很好地流通起来，能够得到更广泛的开发利用，它的价值才能充分地发挥出来。这也是标准编制最早的出发点，不仅仅是指导大家怎么做好数据安全的工作，更重要的是如何在确保安全的情况下，能够推动数据的开发利用，这是这个标准的初心。

相关的法律要求。在《网络安全法》当中可以看到，比如说第18条中明确提出了《网络安全法》的角度也是鼓励数据的开发利用，但是前提是做好保护。42条明确提到了，如果数据涉及到个人信息，能够标识个人的身份，如果没有得到主体的同意是不能够向他人提供个人信息的。这个在健康医疗数据开发利用中是非常重要的瓶颈，因为健康数据很多都是跟个人相关的，因为描述了个人身体、心理的健康状况，具有一定身份识别的作用，所以就导致了医院不太轻易敢把这个数据放出去做相关的开发利用。42条最后有一句话明确提到了，如果这个数据处理过之后，无法识别特定个人不能复原的，这是在这个条款之外的，也相当于是从法律的这一条来看，它实际上给出了我们一个合法地去利用这样一个数据的通道，这个通道就是说我们要通过一定的手段，能够把数据处理到不能识别个人的身份，却无法恢复。这样的话就会要求我们做一些相关的工作，具体的方案标准当中也会有一些介绍，后面再详细介绍。

因为健康医疗领域还有一个非常大的特点，就是法规是最底线的要求，健康医疗是伦理性非常强的领域，所以往往伦理是作为医护人员来讲，他们非常重视的一个方面，可以说是一个道德的标准。正如很多医护人员在入职宣誓的时候都会提到要保护患者的隐私，在医学、伦理有一个世界公认的总纲性的文件，就是《赫尔辛基宣言》，最新的版本是2013年在第64届世界医学大会上发布的，这个文件中有三条是跟我们健康医疗数据利用非常相关的，我们可以看到第一条明确规定了，如果这个数据能鉴定身份，你利用这个数据做研究也属于伦理管辖的范围之内，所以如果我们要拿医院的医疗数据做一些研究，也必须符合跟伦理相关的要求。它的第九条明确规定了责任的问题，不管这个主体是否同意，相关的安全责任都应该由专业人员和专业机构来承担，这个比较好理解，因为我们都知道，健康医疗领域是一个专业性非常强的领域，信息是高度不对称的，所以患者可能有时候不太了解这个里面安全的具体状况，所以这一条是明确把责任放在了专业机构和专业人员的身上。第32条是明确做了相关的要求，就是我们利用这些数据要做研究，前提是尽可能地获得个人的知情同意，在座的很多人可能都签过类似的知情同意，往往都会明确地告诉你无论什么时候，你想退出都是可以退出的，这是最基本的原则。当然了，有一些情况很特殊，比方说联系不大的主体，或者联系的成分过高这种情况下，《赫尔辛基宣言》也是给出了一个通道，是通过伦理委员会的方式去审批、审查。所以这就《网络安全法》前面那一条给出了合法使用健康医疗数据的通道，《赫尔辛基宣言》从伦理方面也给出了这样的通道，我们要通过伦理委员会的方式审批、评审这样的一个事情，做出一个决定。

我们国家也是有一个类似的审查办法，在2016年年底开始实施的这样一个审查办法。这个伦理的审查办法也是符合前面说的《赫尔辛基宣言》的基本思想，但是它把一些东西点得更明确了，比方说基本的原则更强调要尊重受试者的自主同意，患者、个人任何时候想退出相关的研究或者相关的数据使用都是可以退出的，在审查的过程中要遵循有益、不伤害的原则以及公正的原则，这是伦理审查委员会审查的时候要重点考虑的问题，任何一个数据开发利用的工作必须要确保它是对相关的人或者是对社会公众是有益的，而对相关人的伤害应该在最小的限度之内甚至是无伤害的，他才能去审批通过，公正的原则比较好理解，不能存在歧视的状况，这个审查办法当中也明确了，有一些情况是必须再次获得知情同意的，知情同意的概念，通过App安全认真的实施大家都已经很接受了，我采集你的个人信息必须获得知情同意，健康医疗数据利用也存在同样的问题，在研究的时候，往往是要获得知情同意，但是一旦在研究的过程中出现了这四项变化是需要再次获得知情同意的，这个也比较好理解，因为知情同意的前提是我明确地告诉你这个数据我要用来干什么、要怎么用，一旦情况有变要再次获得知情同意，这个审查办法也给出了两种情况是可以免除签署知情同意的：1.我们如果没有办法找到这个受试者，并且这个研究不涉及到个人隐私和商业利益的，这项工作也是可以往下做，而不用获得知情同意的，前提是伦理委员会审批通过了；2.在很早的时候签署了非常广泛的知情同意，后面所从事的相关工作，当然在广泛的知情同意范围之内也是不需要再单独获得知情同意的。从这两种豁免的情况，我们也可以看到，国内的伦理审查办法也是有一种合法合规的使用健康医疗数据的通道的，我们通过伦理委员会的机制，如果满足相关的情况，我们也可以不用去获得相关的知情同意。更好的办法是说我们尽可能做的时候能够拿到广泛的知情同意，这样的话，后面的很多事情就都比较顺了。

二、标准的定位

在这些原则的指引下，我们制定了这样一个标准，目前这个标准在整个国家的数据安全的标准体系当中处的位置是这样的位置，因为国家专门有标准化工作组在制定跟数据安全相关的国家标准，健康医疗数据安全指南是放在应用领域，属于指南性的定位，为什么单独做专门领域的指南，因为这个数据本身有它的特点。这一点宁主任在前面提到了，这个特点我们可以简单地用右图展示。首先健康医疗数据不仅涉及到个人层面的属性问题，它也涉及到公共利益，不完全是个人的私事，一个人生病可能不是完全是你个人的私事，有可能涉及到流行病、传染病的问题，有可能涉及到整个疾病治疗方案的优化改进的问题，会对整个社会大众都会有福祉，也涉及到国家安全的问题，前面宁主任提到了，比如说基因涉及到人种安全，自然就到国家安全层面了，所以它涉及到了三个层次。另外从“安全”这个词本身来讲，涉及到了我们经常讲的三个概念，前面宁主任，包括前面的一些专家也都提到了，隐私的概念很好理解，保密性、安全性、可用性的问题也涉及到了。安全性就是前面宁主任讲到的，因为它跟人的生命健康是相关的，数据出了问题有可能影响到医疗的安全和质量问题，比如说你做着做着手术系统不能用了，你看不到任何数据，手术下面怎么做？这个是很典型的影响到生命安全的状况。正是因为健康医疗数据的这些特点，导致我们会有一些工作有差别，因为它跟生命健康很相关，所以在数据的完整性和可用性方面，我们的要求比一般领域的要求是高的，因为直接跟生命安全相关。因为它跟个人隐私密切相关，很多人都不希望自己得某些疾病的信息被更多人知道，所以它是高度敏感的话题，所以隐私保护的力度也是要大的。因为这个领域本身专业性非常强，信息是高度不对称的，所以在使用这些数据的时候，怎么用这些数据，用哪些数据，这个和一般的领域也是有差别的。目前在提倡个人信息保护的时候，往往很多时候都强调个人自主的决定权，我可以决定把哪些数据披露给你，但是治病这件事情做不到，甚至连医生都没有办法一开始给你一个明确的框框，我治你这个病这些数据就够了，因为有很多不确定性，有很多是在过程中不断明晰、发现的，还有一些问题，比如有些疾病会影响到医护人员的安全，所以是必须披露给医护人员的，让他做好相关的安全防护，比如都是拔牙，但是如果一个艾滋病患者去拔牙，对医护人员的防护要求就是不一样的，这方面的使用披露是有专业要求的。

公共福祉的问题前面讲了，现在在推个人信息保护，前提是这完全是我个人的私事，我可以隐起来，不让任何人知道，不想让任何人关注我，但是健康这件事情不完全是你的私事，一个流行病、一个传染病的问题会影响到很多人，一个疾病的治疗方案的改进也会影响到后面整个人类的福祉，所以它不完全是你的私事，所以我们不能完全用个人隐私保护的理念来限制健康医疗数据的使用问题。国家安全相关前面提到了。在2014年的时候卫健委发布的《人口信息健康管理办法》中明确提到这个数据只能存在国内，不能放在国外的服务器上，因为最近这个领域也在做一些上云的工作，当然了，我们也看到，其实很多地方已经明确要求上云只能上政务云或者是央企云，就是想从存储的环节把控好数据的安全。

我们提到了个人信息安全、隐私保护，这是目前国内做得比较多方面的工作，也是一个非常大的进步，这是在个人信息安全规范当中提出来隐私保护的七原则，也是国际公认的原则。最早在OECD，后来在GDPR都是贯穿了这样的原则。前面我们讲到了，因为健康医疗领域本身有它的特殊性，因为它有它的不确定性，有它的高度性，所以有些原则是不能完全适用的。所以我们不能简单地拿个人信息安全规范去框健康医疗数据的使用问题，比方说这四条原则都会存在适配的问题，一开始没有办法告诉你，说我治你感冒要这些数据就够了，有可能你根本不是感冒，治着治着发现情况更明确了，可能是肺炎等等，所以目的明确，一开始是没办法做到的。最少够用也是没办法一开始做到的，因为人的差异是很大的，没有医生敢给出一个标准说对所有的人治这个病，最小的数据集就够用了，这个非常难。选择同意前面介绍了，不是患者能够自主决定的问题，因为专业差异实在是太大了。主体参与原则，最近我们看到App都上了很多注销的功能，能够允许个人删除自己的一些历史数据。

健康医疗的数据如果个人随意删除会带来什么后果？因为我们知道，一个基本的观点是说你以前得过什么病，以前采取过什么措施，注射过什么药物，很可能影响到后续健康状况和后续治疗方案，从个体本人健康状况来讲也是不能随意删除前面的历史数据。从整个疾病的数据的积累和探索也需要更多的数据积累，才能探究数据的起因，去发现更好的治疗方案，所以不能简单地采取其他领域的主体参与的原则。关于这一点国家也有明确的规定，比如门诊病例必须至少保存15年，住院病例必须至少保存30年，这是国家规定的。在国际上，在很多国家这些数据都是终身保存的，所谓的终身健康档案。这些原则应该做一些简单的适配。

我们看一下标准的定位，健康医疗数据的源头可能是跟个人相关的，所以我们说，还是要从保护隐私的角度来做一些工作，所以要符合个人信息安全规范的要求，前面我们分析了，有些地方是不适用的，是要做一些适配，做一些改进。包括大数据服务安全要求对数据安全也做了相关的要求，数据安全体系对整个组织体系做了相关的要求，在健康医疗领域针对数据安全这件事情我们具体怎么做、怎么落地是需要我们做一些工作的，所以这个标准的定位简单地来看，就是说我首先要符合这些基本的原则，在健康医疗领域怎么落地，它偏重的还是在数据合规层面上的，要确保数据安全能够推动数据的利用。数据不是孤立存在的，它要依赖于相应的网络和系统，网络和系统的安全问题，我们已经实际上有很多的安全控制措施，国家的信息安全标准已经发布了200多个，里面有大量的安全控制措施可以用，最新的等保2.0，在系统和网络层面提出了很多很多的安全控制措施，我们可以用，可以应对网络和系统的安全风险。还有27002也提出了很多控制措施，可以去做。安全能力要求对云计算的安全提出了很多控制措施，可以去做，像这些我们都可以去利用已有的标准当中的安全控制去做，不需要我们再去设计更多的控制措施了，因为这些控制措施在信息领域还是比较通用的，所以这个标准就是这样一个定位。像这样的一些控制措施我们就明确地告诉大家，什么时候你去用什么标准就可以了，把更多的焦点放在数据安全合规问题上，当然也会涉及到其他的概念，比如重要数据，有专门的相关办法做，促进也有专门的标准和办法做。这就是标准的核心定位，侧重在数据安全合规的层面。因为它是第一个国标，所以健康医疗领域的第一个国标，又发挥框架性的作用，告诉大家，什么时候去采信什么样的标准就可以了。

解决的核心问题是这两个问题，因为我们侧重合规层面，第一个，什么事情能做，什么事情不能做。第二个，我们要打消公众和政府对数据开发利用的安全的担忧问题，所以明确地告诉大家应该采取哪些安全措施，能够把安全风险控制住。后面的我非常快速地过一下。把分类做好之后我就可以分门别类地提各种各样的措施和要求了。

首先是数据的分类，数据分了这样六类，详细内容不展开了，大家有兴趣可以看标准的文本。数据也做了相关的分级，分级主要是根据重要程度和风险级别做的，大的因为就是会影响到访问这些数据的范围。角色也做了这样一些分类，有个人的主体、有控制者（标准主要规范对象，医院、机构掌握的数据）、处理者（厂商，往往医院信息化能力不够，需要依靠厂商做处理），还有一些人不帮助医院做事，就是实现自己的目标，他就是使用者。开放的形式相关有这样的类别，这是大家比较常见的。我们比较推崇的，包括国际也比较推崇的是最后一种方式，我给你一个受限的环境，你只能在受限的环境里面看数据、分析数据，但是这些数据你是拿不走的，结果通过审批之后可以带走，这样有一个什么好处？它至少是可以符合《网络安全法》的“例外”，在一个的限的环境下，靠人脑是无法把更多的数据关联起来，这样可以做一些相关的开发利用。

后面做了分类，管理上应该建什么样的组织，有什么样的决策，应该建立怎么样的应急处置，这个大家都非常熟悉了，是信息安全管理体系这一套。技术方面通用的，前面讲到了信息和网络的，云计算的都有相关的标准去探讨，去标识化，这是医疗领域比较重要的话题，刚才讲到了，就是为了达到《网络安全法》提到的那条“例外”的合法通道。具体我不详细展开了。

三、标准的内容

标准呈现这样一个内容，涵盖了前面讲的目标、分类，从使用披露的要求、安全措施的要点，包括管理技术的指南，还有八个典型场景的安全的要点，也是为了增加标准的适用性，我们也给出了很多的附录，包括个人健康医疗数据的范围，包括数据管理办法的事例，包括申请审批的事例，包括处理使用协议的模板，还包括去标识化的事例等等，给出了一些附录可以参考。另外，参考文献当中罗列了能够发现的国内关于健康医疗数据安全所有相关的51个法律文件，也可以做很好的参考。

相关的验证工作，这个标准从2016年开始编制，32个参考了编制工作，这个标准内容也是大家成果实践的经验，我们学校内部启动了一个相关的项目，在医院验证这个标准的适用性的问题，另外也是结合今年将要开展的数据安全管理体系认证的工作，在尝试探索在健康医疗领域怎么做健康医疗领域的数据安全认证的工作，认证方面的需求刚才宁主任在前面讲过了，这是在长庚医院打造的数据安全管理体系的架构，相关安全措施的风险的评估、审计防线的采纳等等，这样一个整体的体系。

这是我们想打造的数据分析平台的架构，在医院里面，在不同的网站上布置不同的系统和软件，从而实现你只能登录到这个系统上处理相关的数据，但是这个数据是拿不走的。另外，也是为了结合伦理委员会的审批，目前我们也在医院，在伦理委员会下面成立了一个数据安全管理的小组，专门评估不同数据开发利用的去标识化方案的合理性，给相关的开发利用工作给出一个技术方面指导的尝试。

四、小结

目前做的这项工作呈现的结果是一个标准的形式，它的基本原则就是基于协商一致的原则，能够对政策和法规提供一个指针和补充，甚至在相关的政策和法规没出来之前能够提供一个先行的规范引领的作用。最终极的目标就是希望能够在确保数据安全的前提下，能够在这些方面获得广泛的协商一致，从而推动健康医疗数据的开发利用。

我的报告就到这里，谢谢大家。