3分钟让你了解隐私计算+区块链带来的革命
在大数据时代背景下,数据的价值进一步得到了体现,因此科技公司往往比较关注数据的采集,由于数据的价值与数据维度有密切的关系,所以数据采集的维度也通常比较高,这也有可能会触及到部分用户的隐私,因此在大数据时代,人们对于个人隐私数据也越来越关注。
根据IDC发布的数据,截止到2018年底,中国大数据解决方案市场软硬服总额达到388.8亿元人民币,并有望在2023年超过800亿元人民币,全球市场则将超过3000亿美元。在这种背景下,兼顾隐私保护和数据利用的计算方式就成为了企业和学界研究的重点,各国对于隐私数据的监管越严厉,隐私计算行业的发展前景就越大。
一、隐私计算的概念
隐私计算的概念最早是在2016年提出的,隐私计算是面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。隐私计算涵盖了信息搜集者、发布者和使用者在信息产生、感知、发布、传播、存储、处理、使用、销毁等全生命周期过程的所有计算操作,并包含支持海量用户、高并发、高效能隐私保护的系统设计理论与架构。简单来说,隐私计算是从数据的产生、收集、保存、分析、利用、销毁等环节中对隐私进行保护的方法。
二、隐私计算的三大矛盾
隐私数据的处理过程当中还面临着三个内部矛盾:安全、效率、数据孤岛。
安全方面,目前的大数据行业主要依托于可信第三方的计算服务。这些第三方包括主要应用于科研领域的超算中心和主要应用于商业领域的数据中心。大数据行业的高性能、高投入需求让规模化、集中化的运算成为了市场主流,2011年起,我国规划建设了255个数据中心,总设计服务器规模728万台,承担了我国大部分民用数据的计算服务。但这些集中化、规模化的数据中心可能出现问题也并非危言耸听:就在今年2月,由于阿里云代码托管平台的项目权限设置存在歧义,导致开发者操作失误,造成至少40家以上企业的200多个项目代码泄露,其中涉及到万科集团、咪咕音乐、51信用卡旗下51足迹、百度无人车合作伙伴ecarx等知名企业。
效率方面,在隐私信息的生命周期中,受益于密码学发展,隐私的加密化、匿名化和脱敏技术都已经非常成熟,可以大规模应用在隐私获取、储存、流转等环节中。但大数据时代的到来,让隐私数据的处理成为了一个难题:大规模的加密数据处理一定会导致计算性能下降,而非加密数据处理又极大概率会导致隐私信息的泄露。
数据孤岛是指的是数据被保存在无法自由流动的环境之下,互相独立存储、独立维护。数据被视为数字时代的石油,每家企业都想守着自己的数据挖掘出巨大的商业价值。甚至数据隐私本身的保护服务,就蕴藏着商业利润。Gartner就预测2019年全球消费者安全软件支出将达到66亿美元。至于各地的政府部门本身,由于责任边界、数据共享的技术条件等问题,也缺乏足够的动力来推动。
以医院的病历数据举例,随着信息化的推进医院已经积累了许多临床医疗的数据。如果这些数据可以开放出来,被制药公司、学术机构进行研究,可以帮助我们更好地探索疾病和治疗手段。然而,由于隐私保护的原因,医院并不会这样做。一方面,它不具备足够的技术手段,将大量的患者信息以一种较为安全的途径传递出去。其次,它也无法保证外部机构在拿到这些数据后,会对它们做些什么。毕竟,病历信息属于个人隐私,谁都不想别人知道自己得了什么病。这听上去很合理,却是一种巨大的浪费。
三、当隐私计算遇上区块链技术
隐私计算虽然是近几年随着大数据技术的高速发展而出现的新概念,但其核心理念却是随着互联网诞生就出现的:可信计算(Trusted Computing)由TCPA(可信赖运算平台联盟,Trusted Computing Platform Alliance)提出,这个术语来源于可信系统,并且有其特定含义:如果一个实体的行为总是按照预期的方式和目标进行,那它就是可信的。其主要思路是在计算机硬件平台上引入安全芯片架构,通过提供的安全特性来提高终端系统的安全性。
可信计算的反对者们认为这项技术“太中心化”了。区块链技术适用于解决信任问题,这也是区块链技术天生适合隐私计算的主要原因。虽然区块链能够解决信任的问题,但其他问题依然存在:区块链的公开透明和全节点验证,数据将流经区块链上的每个全节点,使其无法很好的处理隐私数据,大数据应用的迅猛发展对隐私保护服务请求的用户容量、并发程度和能效优化提出了极高的要求。在这个过程当中,明文大数据分析会导致隐私泄露,而将数据加密之后,大规模数据密态化又会极大的影响分析效率。
四、Layer-2 隐私计算的破局法则
中国观察
国际金融