2019大数据产业峰会|百度资深研发工程师冯智：安全多方计算在数据协同中的实践_IDC国内资讯

为了深入落实国家大数据战略，推动大数据产业交流与合作，展示我国大数据产业最新发展成果，2019年6月4日至5日，由中国信息通信研究院、中国通信标准化协会主办，大数据技术标准推进委员会承办的2019大数据产业峰会在北京国际会议中心隆重开幕。6月5日，数据流通技术与法律论坛隆重举行。百度资深研发工程师冯智以“安全多方计算在数据协同中的实践”为主题进行了演讲”。

百度资深研发工程师冯智

各位来宾下午好，接下来由我给大家带来“安全多方计算在数据当中的实践”。首先自我介绍一下，我来自百度大数据库，最近几年做的方向都是数据治理、数据流通相关的工作，也算是我自己亲身参与的一些事情，我也很有幸在这里给大家进行一些分享。

首先我介绍一下背景，数据已经成为这个时代的石油资源，成为当今世界上最有价值的资源之一。随着我们大数据技术相关的落地和应用，大数据当中所蕴含的价值越来越为人们所熟知，利用数据可以提升产品效果、落地应用、挖掘其中的价值，数据协同也越来越旺盛，各个企业都需要数据，但是如何合法、合规、有效的去使用这些数据，一直存在着巨大的风险。

所以法案逐渐出台且日趋严格，从法律法规层面大家可以看到欧盟2018年5月GDPR法律正式生效，之后各国法律界一直跟进，也陆续出台了相关的法律文件。从行业需求来说数据隐私安全已经成为制约大数据企业应用的重要因素，成为一个关键问题了。大家怎么样使用数据，合法合规的使用数据，如果不了解的话可能带来一些问题。从行业趋势上来看，Gartnre将数据隐私列为2019年十大战略技术趋势之一，我们要拥抱变化，面对数据协同的需求越来越旺盛，法律法规越来越严格，我们如何同时应对两方面的问题。

讲了一些背景，我们具体看一下实际的具体数据合作的案例，在数据协同的场景下，一般会有很多方进行参与，最简单的情况是两方，一方是数据的拥有者，另外一方是数据的需求方，他们是两个人，他们存在数据协同的需求。

对于这个图来说艾丽斯拥有自己的数据，鲍勃拥有自己的数据，两个数据源形成数据的孤岛，希望进行数据协同提升业务效果。鲍勃这个数据以后拿到艾丽斯的数据进行联合的建模和输出结果，但是艾丽斯不想给他原始数据，为了完成这个合作又不得不给他原始数据。大家可以看到数据源直接提供原始数据给鲍勃，鲍勃这一方进行数据生产加工建设。所以这个地方会存在一些潜在的风险，包括数据所有权发生的转移。

这部分数据艾丽斯给鲍勃之后，鲍勃是不是应用在跟艾丽斯约定的数据使用场景呢，艾丽斯没有办法在鲍勃这一方进行审计和监控，具体这个数据到底做了什么，最后会不会有二次分发的问题，对于数据拥有者一无所知，所以对我们来说会带来巨大的风险。我们先记住这个例子，一会回来讲。

接下来进行总结，讲完了背景进行总结，上面的案例抽象的数据协同过程，其实有三方的角色参与过程，包括数据生产方、数据需求方和潜在的数据监管方，他们彼此之间会有什么期望呢。在这里可以看到对于数据生产方担心高价值、高敏感的数据安全的风险问题，他也希望发挥自己数据的价值，他的诉求是安全融合，合规协作。对于数据需求方他的诉求是什么呢，他希望能够获取到更多高价值的数据提升业务效果，他的诉求是能够发现有价值的诉求，能够助力他的业务。对于监管方的诉求是什么呢，他希望这个过程有所监管，做到有证可查，有法可依，这个过程是合法合规的。这三方的期望如何能够做到有所建构，他们之间的矛盾根本在于什么地方呢。

数据根本的问题在于，传统的方案当中很难做到数据使用权和所有权的分离，数据的所有权从生产方转移到了数据需求方。这三者其实都是难以接受的，发生原始数据的转移，对于这一矛盾和冲突我们希望致力于研究这样一种技术，能够去解决这样的问题。安全多方计算就是能够实现数据所有权和使用权分离，实现数据可用不可得的技术手段。这种技术有两种解决方案，接下来会一一介绍，第一个解决方案是基于可信硬件的可信第三方的方案，第二个是去中心化的密码学的方案。

首先介绍一下可信硬件可信第三方TEE的方案，假设艾丽斯和鲍勃互相不信任，最简单的做法是引入公正的第三方。有公正的第三方可以解决数据的协同问题，这个可信硬件的第三方相当于公正的第三方，在第三方的环境下艾丽斯跟鲍勃他们同时认证，这在可信第三方里面的环境是安全的。可信第三方保证只做一件事情，按照他们约定的流程，在不泄露原始数据的情况下进行数据生产加工的处理流程，最后产出的计算结果，原始数据是没有办法被双方任何一方进行获取的。具体流程上来说，艾丽斯和鲍勃通过管理生成计算环境和计算区域，通过交互管理，在计算过程当中修改需要调节的环境参数，包括算法参数，最后他们通过流程控制，比如打通两方的IT、数据合并，最后做数据结合的过程。包括我们这个计算环境当中，提供数据分析的库和机器学习的库，在硬件的环境上完成彼此的一个数据融合的加工，最后产出结果。

讲完了可信的第三方方案，还有一个基于密码学多方协同EPC的方案。去中心的密码学方案是指在这个方案当中不用引入第三方，两方彼此启动一个程序，他们经过多轮的交互最终完成交互的过程。密码学是指，可以用到代码可以混淆电路，秘密分享等等密码学的手段，来把代码实现的编译在多方进行加密、拆分之后的结果等价于原始数据在单方本地执行的结果，是有数学和程序算法上保证中间这个数据和最终的结果无法反推回原始的数据。

在这个过程当中我也稍微进行简单的介绍，首先艾丽斯和鲍勃，首先把他们要计算的数据进行加密的拆分，分成分片。同时计算两方的程序同时启动，经过多次的通讯，按照协议去交换中间的结果数据。最后产出这个结果，经过秘密分享阶段拿到能够恢复的结果数据，中间的计算过程和结果数据，通过程序无法反推回原始数据。

对比一下两个方案各有什么优缺点，第一个方案需要依赖于一个硬件，我们部署一个硬件资源。在硬件资源上提供，能在硬件上需要跑的软件，强依赖硬件资源。而且需要有一个两方的数据同时加密离开本地并放到可信硬件执行。第二个方案需要大量的通讯和技术，而且是基于密码学的方案，这会带来性能的下降。他们本质上来说都各有优缺点。我们也希望能够探索这样的技术，来回避技术上的优缺点，能够应用在产品当中。

我们看一下百度完整的大数据生态是怎样的情况，产品体系是什么样的情况。我首先介绍一下点石百度大数据产品体系。点石平台是大数据生态，大家可以利用这样一个产品进行单方、多方的数据融合计算，挖掘数据的价值。在融合的过程当中数据安全显得尤为重要，我们这个可信的安全多方计算这个产品位于数据的平台核心层的位置。可信的安全多方计算这个产品从能力上分成三层，基础能力层包括了多方计算，可信计算等这种基础能力，为上层的能力提供可靠的保证。依托于底层的安全技术，我们希望能够结合大数据的特点和领域，能够把这些技术工业化可落地应用到生产环节当中，我们希望做到安全技术和大数据结合的联合解决方案。我们也进行了探索，抽象了两类主要在大数据里面应用的场景，包括可信数据分析和可信机器学习。最后希望把技术上升到产品化，产品关注用户的体验，让用户可以实现低成本使用。

基础能力刚才已经讲过了，接下来针对场景组件和计算产品进行介绍，面向特定应用场景的多方计算组件，实现工业化可落地，我们也进行了思考。可信的数据分析和可信的机器学习是用户使用的两类比较典型的场景。我们在这个地方也积极的进行了探索，所谓的工业化可落地主要区别于学术的概念，不光进行功能的可验证，还要真正的可落地，能够应用到数据协同和数据交换上来。

所以针对这种领域，我们要结合大数据领域的经验做到更有针对性的优化。接下来我解释一下什么是可信的数据分析和可信的机器学习。可信的数据分析是面对联合场景，支持多方计算程序LQL和特征计算等。比如你有一个数据库，我有一个数据库，两个数据库的数据不能互相给对方，我们俩的数据库进行一些联合的查询，算出共同的函数，这是可信数据场景所带来的。可信的机器学习，是面向联合建模场景，支持LR、GBDT、NN等算法，在联合建模的场景下，用户能够对未来数据做一个预测提升数据的感知力。

针对可信的数据分析领域，我们MPC的方案能够做到什么呢，我们已经做到在诚信的模型下支持两方的查询、函数计算等，MPC的方案能够做到性能是本地执行的100倍之内。针对TEE方案，我们把Spark迁移到SGX当中，能够进行加密数据的分析。在不切换工具的情况下，能够以低成本的方式进行隐私数据的计算，然后进行加密数据的分析，这个就是相当于我们针对大数据和安全领域的结合和针对具体场景的探索。

针对可信的机器学习领域，MPC的方案，他有一个更常见的名字是联邦学习，大家用这个名字可能比较多。主要是做什么呢，支持多种隐私数据联合机器学习建模算法，能够支持两方的数据，能够按列、按模型、按行做一个数据融合，做一个特征的融合，做一个样本的融合，做一个最后模型的叠加，做一个牵移，最终产生一个产品的效果。

针对TEE的方案，在TEE的解决方案支持单方训练和两方做任意方式的数据融合的情况下，在私有化场景下，我们可以把计算好之后的模型安全部署在可信的硬件里面，用户能够通过接口使用这个东西，但是不能获取这种模型。

讲完了面向多方计算带动工业化场景的探索，接下来介绍一下多方计算的相关产品，能够把多方计算这个技术产品化，一直是我们追求的目标。用户友好的安全计算产品能够显著降低用户使用的门槛，回到刚才的例子，艾丽斯和鲍勃，艾丽斯如果想把数据提供给鲍勃使用，如果有这样一款产品双方有这样数据融合的需求，用户可以通过界面操作最终完成数据融合，这大大方便了整个中间过程的衔接。

我接下来介绍一下整个流程，首先数据的提供方和数据的使用方都会用SDK以接入的方式把原数据发到用户界面上来，监管方就可以做一些事情。可以看到进行主体的管理，到底是谁参与了数据流通的过程，可以进行流通品的管理，他可以针对整个流通过程进行管理，流通这个过程是不是合法合规的，这个过程是不是合理有效的。最后如果数据需求方有这样一个数据融合的需求，首先要通过认证登陆到平台上，鉴别在平台上有哪些数据，有哪些操作权限，通过这些原数据的管理可以浏览发现平台上到底有哪些原数据，可以跟自由的数据进行融合加工。最后进行数据审批，提交数据流通和数据融合的需求，通过我们平台方，数据监管方，数据提供者可以参与到数据审批的过程当中，然后实现过程的流程，去批准这样一个事情。

最后可以通过这种调度管理提交数据融合，发起任务到Coordinator，分发任务，然后Agent分别持有两方本地的数据，这个过程当中数据没有离开自己本地。他们两个Agent完成计算，最后产出结果，大大化解整个流程，让用户更方便的在平台上使用。最后看一个项目落地的案例，这个场景下是金融领域当中有两个客户，拥有不同领域的数据，存在数据协同这样的需求。客户A在商品特征和分类数据方面有多年的积累，是该企业的核心资产之一，客户B掌握了用户行为，了解用户的喜好和偏好，彼此对数据十分看重。但是由于两方的数据完整，A缺少商品数据，B缺少用户数据，他们的数据不足以支撑建立很好的模型来应用到一个产品落地当中。如果将两方的数据进行联合，就能够大幅度的提升产品和应用的落地效果，如果我们不使用安全多方新的协同计算手段，他们两方的数据则必须整合到一方进行训练以便得到模拟。通常情况下用户同意的是对数据的使用权，而不是对用户的所有权，这会导致出现数据二次分发，数据泄露，法律风险等等各种各样的问题。如果应用多方安全计算，A通过数据清洗生成一个0101的特征数据集合，B的数据通过用户偏好模型生成很多分模型，分模型再聚合再生成提取出高阶的因子，他们两方实现了加密算法的融合过程，产出了建模报告，可以应用在推荐场景等很多场景当中。并且在这个过程当中，也能保证效果跟AOC相比不会下降太多，可以保证下降程度控制在1%到5%之内，也能够帮助产品实现推进效果的提升，可能从60%到70%，甚至到80%。能够让这个场景下，了解推荐产品的品类和用户的喜好。

我的分享就到这里，谢谢大家。