AI训练遇隐私难题 联邦学习这样打通数据孤岛
AI训练遇隐私难题 联邦学习这样打通数据孤岛
本报记者 马爱平 马 越数据可以说是人工智能的燃料。但随着AI落地各个应用场景,数据隐私泄露问题日益严重。数据的交流使用和数据的隐私保护似乎成为了不可调和的矛盾。
如何在不泄露各自数据隐私的情况下实现数据的共享和模型的共建,同时连通数据割裂的孤岛是当前所面临的问题。目前各机构正试图利用联邦学习打通人工智能应用的最后一公里,促进人工智能落地。
数据孤岛阻碍机器学习训练
“互联网时代产生的海量数据,其背后的价值如何能挖掘出来,又会对我们产生什么样的影响?”近日,在由中国计算机学会发起的第四次联邦学习主题研讨会上,微众银行人工智能首席科学家范力欣说,如何发掘和利用这些信息是现在一个非常热门的研究方向,但要安全合规地发挥这些海量数据背后的价值,就涉及到隐私保护问题。
随着人工智能的发展,其可能带来的隐私泄露风险也日益凸显。除了备受关注的脸书(Facebook)等巨头公司的用户隐私泄露事件外,目前用于算法训练的数据的来源也让人担忧。有媒体日前报道,在网络商城中有商家公开售卖“人脸数据”,数量达17万条。目前网络商城运营方已认定涉事商家违规,涉事商品已被下架处理。
为了应对隐私泄露风险,各国都采取了相应措施。如2018年欧盟出台了首个关于数据隐私保护的法案《通用数据保护条例》;2019年5月美国旧金山禁用人脸识别,禁止政府机构购买和使用人脸识别技术,以此来消除技术带来的隐患;从2009年开始到2019年十年间,我国也出台了非常严格的隐私保护法案。
但同时,数据隐私的保护也对依赖数据的机器学习形成了巨大挑战。如《通用数据保护条例》要求公司在使用数据前要先向用户声明模型的作用,这份条例的实行让许多大数据公司在数据交流方面非常谨慎。
“人工智能需要通过大量的数据学习才能把数据后面的知识挖掘、整理出来,把价值发挥出来。但现实的情况是一方面很多数据质量不好,缺乏标签;另一方面,数据完全分散在各个数据主体、企业的个案里面,是一个个数据孤岛,无法把它们连接起来。”范力欣说,如何在保护数据隐私同时打破数据孤岛是我们现在面临的问题。
联邦学习或将提供解决办法
在人工智能领域,传统的数据处理模式往往是一方收集数据,再转移到另一方进行处理、清洗并建模,最后把模型卖给第三方。但随着法规的完善和监控愈加严格,如果数据离开收集方或者用户不清楚模型的具体用途,运营者都可能会触犯法律。同时,数据是以孤岛的形式存在的,解决孤岛的直接方案就是把数据整合到一方进行处理。但目前粗暴地将数据聚合是法律法规所禁止的。
范力欣表示,联邦学习正是针对数据孤岛和隐私保护而产生的一种解决方式。值得一提的是,2019年4月,李开复也曾在演讲中提到联邦学习。他表示,为了防止最严重的数据滥用,需要制定相应的法规。与此同时也可以尝试“以子之矛攻己之盾”——用更好的技术解决技术带来的挑战,例如同态加密、联邦学习等技术。
作为一种分布式机器学习技术,联邦学习可以实现各个企业的自有数据不出本地,而是通过加密机制下的参数交换方式共建模型,即在不违反数据隐私法规的情况下,建立一个虚拟的共有模型。由于数据本身不移动,因此也不会涉及隐私泄露和数据合规问题。这样,建好的模型将在各自的区域仅为本地的目标服务。在这样一个联邦机制下,参与各方可以在不披露底层数据和底层数据的加密(混淆)形态下共建模型,各个参与者的身份和地位相同,这就是为什么这个体系叫做联邦学习。
微众银行人工智能部高级研究员范涛介绍,如SecureBoost联邦模型,核心是大家共同构建了一棵“树”,每一方都可以看见这棵“树”,但是每一方看见的东西是不一样的。通过构建这样一棵“树”能够实现算法的性能提升。
“联邦学习所使用的数据是不能移动的,但数据背后的知识、数据背后的价值是可以移动、转移、共建的。所有贡献数据的参与者都有同等的权利、获得同等的回馈,这是共同获益的机制。”范涛说。
如此,大家就有了动力共建联邦学习的生态。
“联邦学习大体可以分为横向联邦和纵向联邦。横向联邦特征维度都一样,通过扩充样本的方式提升模型质量;纵向联邦样本相通,通过扩充特征的方式来实现数据的信息互通,提升模型质量。”范涛说,比如目前的传统反洗钱模型存在样本少、数据质量低的问题,使用横向联邦的技术可以解决这样的问题,在横向联邦里面,不需要进行样本对齐。
正在迈向积累经验的落地阶段
中国观察