欢迎您登录科学中国人官方网站!!
新浪微博|网站地图|联系我们
筑基数据安全流通 隐私计算让数据“可用不可见”

来源:  发布时间:2022-03-24

——记锘崴科技创始人、董事长王爽

刘玉杰

 

 

在中共中央、国务院20204月发布的《关于构建更加完善的要素市场化配置体制机制的意见》中,数据已成为同土地、劳动力、资本、技术等传统生产要素并列的五大核心要素之一,作为一种新型生产要素参与分配。数据的作用和价值逐步凸显,数据资源的开放共享、交换流通已成为横跨多个行业的重要趋势,业界对深入、全面挖掘数据价值的需求也日益强烈。

在对数据“功能性”不断探索的同时,近年来频发的数据安全事件,也显示出数据利用的另一面——数据内容缺乏有效保护、数据泄露风险逐渐增加。这无疑对从业者提出了更高的要求:既要应用数据,又要保护数据安全。如何兼顾发展和安全,平衡效率和风险,在保障安全的前提下充分发挥数据价值?这成为杭州锘崴信息科技有限公司(以下简称“锘崴科技”)创始人、董事长王爽一直在思考的重要课题。经过多年研究和应用实践,王爽及其团队通过以安全联邦学习为代表的隐私保护计算技术,为流通过程中数据的“可用不可见”提供了兼具全面性和个性化的解决方案。他们期待在破解数据保护与使用之间的矛盾、放大数据要素的效能和价值、提升技术的创新速度和维度等层面不断加码,使得数据要素资源为经济社会高质量发展提供强大助力。

 

破局“隐私之困”

 

2009年,时任美国总统的奥巴马宣布“要建立一个更坚强、更智能的电网”。为了更准确地了解居民何时用电、用电多少的实际情况,从而根据实际用电量来实时调度电力,每15分钟上传一次电量数据的智能电表,成了美国能源部门构建智能电网的“主力干将”。然而智能电表的推广计划很快“遇冷”——美国民众将其视作“监控隐私”的“内鬼”,反对智能电表的呼声日高。这场声势浩大的讨论,引起了当时正在读博士的王爽的注意。凭借自身在密码学基础性研究领域的经验,王爽敏锐地意识到,民众对于智能电表泄露隐私的担忧并不是“庸人自扰”——“利用一些特定的算法,就可以通过用电数据推算整个屋子里的活动情况,例如屋主什么时候做饭、用电脑、看电视、洗衣服等,全都能计算出来。”王爽解释道,“而这些数据一旦被滥用,可能会对个人乃至整个社会造成严重后果。”

难道数据利用和隐私保护,就真的无法“共存”吗?智能电表“进退两难”的境遇,让王爽不由得开始思考这个问题。很快他发现,就智能电表这一具体案例来说,电厂仅需统计信息而并不需要个体数据。结合智能电表的分布式结构,王爽将自己在分布式编码方面的技术成果运用其中,既让电厂拿到各项统计数据(即加密的中间计算结果),又不暴露单个用户的用电量,为数据和隐私的“和平共处”提供了一个行之有效的解决方案。以此为开端,王爽开始涉足隐私计算领域,并投身到将隐私计算服务于不同应用场景的尝试中。

两年后,博士毕业的王爽受邀加入了美国加州大学圣地亚哥分校(UCSD)医学院。在对于隐私保护要求更高、需求更迫切的医疗领域,王爽也迎来了自己新的挑战:他需要从学术的角度搭建一个服务于美国生物医学计算网络的隐私保护计算构架。这个项目是美国国家生物医学计算中心最核心的部分,要用技术打通数百家医院的医疗数据在隐私保护下的安全共享与分析,并制定一套隐私计算标准。基于医疗数据的特殊性,在传统的医疗数据处理中,有过“通过性别、生日和邮编这3个信息即可能唯一确定患者身份”并导致其隐私泄露的先例。而这一情况,随着人类基因序列数据的引入,变得更加棘手——“一个人有30多亿个基因位点,只要挑出具有代表性的十几个位点,就能唯一确定一个人,准确率比指纹高得多。”王爽解释道。与此同时,由于基因序列数据应用中对于数据质量的要求很高,诸如匿名和泛化这种常规的医疗数据处理方式难以用于基因序列数据的“脱敏”处理。与基因数据“脱敏”处理难相对的,是囿于各家医院样本的有限性,推动医院间的数据共享、用技术提升医疗效率、打通医院之间信息壁垒同样具有其现实必要性。然而基因序列数据涉及病人及其血亲的隐私、医院数据安全、技术竞争等诸多层面,数据安全问题不解决,在现有情况下医院间的数据共享就不可能完全实现。如何在不给出原始数据的情况下,让数据的价值得以最大限度地释放?冥思苦想间,曾经的“智能电表方案”给了王爽新的灵感,用于医疗领域的隐私计算方案以“安全联邦学习”的面貌出现在众人面前。

据王爽介绍,在这套名为“隐私保护下的分布式机器学习(即安全联邦学习)”方案中,多个合作的医院不需要将各自的原始数据拿出来进行多中心模型“训练”,而是反其道而行之,将模型训练置于各个医院,基于医院的本地数据训练出一个“小的”本地模型。随后将几家医院分别训练出的“小模型”放到一起,训练出一个更厉害、更准确的大的全局AI模型。在每次使用各医院的数据时,只需把要分析的模型放到各个医院的数据池中,进行运算后交互加密的模型参数,而不用提取具体的原始数据。整个过程中任何一家医院都不会暴露各自的原始数据,却又可以将多方的数据用于研究分析,做到数据的“可用而不可见”。此后,王爽还不断对这一方案进行完善,以实现每一个医院或中心机构的加入或离开不会对整体研究进程造成影响的目标。同时他还在数据安全性层面不断加码,引入各种安全挑战并主动填补“漏洞”,确保整个系统的安全平稳运行。至此,多中心生物医疗数据研究的隐私困境终于被解开,一个包含美国加州大学旗下5所附属医院的多中心联合分析网络也由此建立起来。以此为开端,数据的安全流通让越来越多的医院和机构闻讯加入。20132015年之间,一个横跨美国西海岸10多个医共体、串联起上百家医院、覆盖数千万个病患数据的网络全面建成,王爽将之命名为“安全联邦学习”的隐私计算成果也在医疗领域绽放出耀眼的光芒。上述成果的理论基础,都是基于王爽2012年形成的学术论文工作,该论文也成为全球首篇关于医疗在线安全联邦学习的文献,引起了业内广泛的重视和借鉴。“所谓安全联邦学习,就是允许多个参与者在不共享原始个体数据的情况下,构建一个通用强大的机器学习或统计模型。简单来说就是,通过‘数据不动加密模型动’的方法,来解决如数据隐私、数据安全、数据访问权限和对异构数据访问等问题。具体到医疗环境中,过去医院在治疗罕见病时往往受限于单中心数据量不够等问题,在解决了数据隐私问题后,就可以整合全行业数据为病人寻找最有效的治疗方案。原来需要数周寻找治疗方案,现在可能会缩短至1天甚至更短。”王爽骄傲地说。

2016年,谷歌AI在技术博客文章中首次引入“联邦学习”的概念,随后这项技术也逐渐成为AI领域的热门研究内容,引起从业者的广泛注意。而此时,王爽已经在这一领域深耕多年,但他并未就此止步,让技术“走出去”、让人才“走进来”,成了王爽前进的新方向。

 

用比赛弥合隔阂

 

因小见大,在完成美国国家生物医学计算中心项目后,王爽在研究过程中看到了隐私计算巨大的发展潜力,“置身其中”的他也很快意识到了培养、发掘、集结专业人才团队的重要性:“隐私计算光靠一两个团队的话,进展太慢。”此外,在走访各个密码学和安全专家时,王爽发现整个密码学界、安全界跟医学界处于“相对独立”的状态:“懂医学的人基本不懂密码学和安全,懂密码学和安全的基本不懂医学。”王爽解释道,“从密码学研究的角度来说,很多传统的密码学理论尚未针对实际应用场景提供具体化解决方案。有时候密码学专家设计了一套非常精巧的方案,在密码学上是完全正确的,可是其中很多计算都是在假想环境下进行的,或者当下的算力尚无法满足其提出的计算需求,方案自然无法‘落地’,缺乏实用价值;从实际应用的角度来说,有时候医院接到一个病人,需要在数据库里寻找是否有相似的病人、曾用过什么诊疗方法、效果如何等数据进行参考。此时,如何从医院研究工作的实际情况出发,准确定义‘相似的病人’,尽量避免可能出现的错误,是密码学界、安全界需要切实思考的问题。”在王爽看来,要解决上述问题,实现技术与产业的磨合,最好的方式就是通过一类活动把技术与产业的人聚集到一起,消除“搞密码学的群体和医生群体之间的gap(隔阂)”。而王爽选择的“聚集”方式,即是竞赛。

2014年,王爽主持创办了“iDASH全球隐私保护计算大赛(iDASH Privacy Protection Challenge)”。由于该项目的全球影响力,作为项目负责人,王爽创办的竞赛也受到了美国国立卫生研究院(NIH)的支持。王爽希望通过竞赛的形式,将实际的医学问题转化成计算机/密码学领域专家能够理解的算法问题,从而拉动更多的专业学者参与到隐私计算的具体应用场景中,以技术手段去服务于真实场景下的数据交互和价值转换。

万事开头难,这场当时知者甚少的竞赛,首届参赛的10支队伍中有很多都是靠着王爽发邮件、朋友圈“刷脸”,甚至拽着朋友、合作伙伴来参加的高校团队,但其新颖的比赛模式、先进的研究方向及搭建隐私计算学术研究和医疗产业沟通桥梁的决心,在参赛者心中留下了深刻的印象。“反响是很好的。”王爽回忆道。次年,在美国基因研究领域的权威媒体GenomeWebNature News的报道下,iDASH全球隐私保护计算竞赛“声名鹊起”,学界几乎所有从事隐私计算或基因的研究者都对这个新生的竞赛有了初步认识。加之民众隐私保护意识的觉醒及相关法案的推动——如号称史上最严的隐私数据保护法案《通用数据保护条例》(以下简称“GDPR”)的最终稿公布,规定将对没有做好用户隐私保护的公司处以天价罚款,因此数据安全迅速成为各大科技公司需要妥善解决的重要课题,也使越来越多的科技公司加入对数据安全保护技术方案的探索过程中。自第三届比赛开始,如微软、英特尔、IBM等商业公司也开始派队参赛,iDASH隐私保护计算竞赛的规模、影响力不断扩大。目前,iDASH全球隐私保护计算竞赛的参赛队伍已涵盖互联网大厂、创业公司、著名高校等多个领域,参赛队伍超过百支,这一竞赛也正在成为各大隐私计算厂商及高校展现实力的角逐场。据了解,iDASH全球隐私保护计算竞赛现已成为全球隐私计算领域颇具影响力的赛事之一,有“隐私计算领域的奥林匹克”之称。后续在20212022年,王爽也发起了中国首届“隐私保护计算竞赛”。该竞赛包括医疗数据隐私保护在内,下设多个领域的隐私保护计算赛道,成为进一步提升隐私保护计算在中国影响力和竞争力的重要推力。

在为技术方和需求方搭建沟通桥梁的过程中,凭借在隐私计算领域研究及应用的先行优势,王爽及其团队参与到更多的隐私保护项目中,美国卫生保健研究与质量局(AHRQ)项目、多项美国国立卫生研究院(NIH)项目、英伟达(NVIDIA)高性能计算项目、亚马逊(Amazon)云计算项目等重要项目中都有王爽团队的身影。除联邦学习的技术路线以外,王爽基于硬件的可信计算环境结合软件的密码学解决方案,为一种名为“川崎病”的儿童罕见病研究提供了强大助力,这是全球首次应用安全联邦学习架构解决在合规基础上的跨国罕见病联合分析难题。此外,王爽还将同态加密和多方安全计算等加密技术应用到解决实际问题的过程中,与英特尔、IBM、微软等头部公司展开合作,推动隐私计算的商业化应用。几年时间,王爽掌握的技术方案不论是在安全性,还是计算效率和复杂度上都在飞速提升,能应对的问题范围也越来越广。2017年,王爽牵头创办了国际同态加密标准委员会并制定相关的国际标准,形成广泛的国际影响力。

在学术界行走日久,王爽自问,是否要安于这样的现状?很快他就给出了否定的回答:“总是处在比较安逸的环境也不太好,我还是想做一些有挑战性的事情。”在一次学术报告中,王爽结识了在生物医药行业深耕十余年的硅谷资深科学家郑灏博士,对于“隐私计算的风口即将到来”的共识让两人一拍即合,抓住风口投身创业的想法也在王爽心中逐渐清晰起来。

说做就做,但这时的王爽来到了一个新的“岔路口”:留美创业还是回国创业?尽管美国在隐私计算领域有着更成熟的产业环境、配套设施及技术优势,然而“第一次踏上飞往美国的飞机时,我就知道自己有一天会回来”的信念,让王爽坚定了回国创业的决心。恰逢国家推进“青年高层次人才引进计划”,王爽顺利通过选拔,以当年隐私计算领域唯一上榜者的身份回到暌违多年的祖国。在回国的飞机上,王爽给自己提出了一个问题:“中国人的隐私,会被重视起来吗?”随即,他坚定地回答自己:“我相信,一定会的。”

 

让数据更有价值

 

2019年,王爽和郑灏联合创办的锘崴科技落户杭州。以独有的安全联邦学习技术为基础,年轻的锘崴科技“兵分三路”,梳理出隐私查询、隐私建模和隐私推理3条主要隐私计算产品功能,推出拥有完全自主知识产权的锘崴信.隐私保护计算平台。据王爽介绍,隐私查询主要用于在数据源中在保护各方隐私的前提下查找匹配条件的数据,如药企开发靶向药物需要查找符合条件的病人信息、税务部门和机场对限制高消费人群身份的比对等场景,这一过程涉及多项数据交互,需要强有力的隐私保障。为此,锘崴科技的隐私查询产品通过算法和模型优化,保证数据源匹配模型、查询条件、查询结果不被泄露且查询结果准确,满足医疗、金融、政务、安防等多个领域的查询需求。隐私建模即是通过多中心联合训练一个算法模型,同时确保各个中心具体数据和模型不被暴露,以满足使用者在样本不足情况下,通过横向或者纵向安全联邦学习以补足样本量及补充维度之需求,从而实现更精准的模型和画像,广泛适用于医疗系统联合分析研究、新型药物研制、精准营销及金融机构大数据风控等具体场景。隐私推理则是在使用他人已经训练好的模型时,向模型输入一些信息源,对自有数据进行保护的产品。通过隐私计算,使用者可在加密的参数下对加密的数据进行计算并产生加密的结果,从而在保护所有的相关信息不泄露的情况下,又能用对方的模型来处理数据。这一产品可用于诸如征信分数或者临床辅助诊断结果等场景中,帮助使用者在各方不互信的情况下完成隐私保护的相关操作。

凭借丰厚的技术积累和千万级的数据验证,锘崴科技的产品呈现出明显的技术优势和深厚的场景理解力,“开箱即用”的使用体验更让其在实际应用场景中大放光彩:2020年上海某三甲医院牵头的基于隐私计算的全国首例关于风湿免疫疾病的跨省多中心临床研究取得上海市科技进步奖一等奖,其联合研究过程中使用的隐私计算方案,就来自锘崴科技。在普惠金融领域,锘崴信.隐私保护计算平台赋能跨多个数据源的、更加精准的风控模型构建,以服务于中小微企业的贷款需求;在保险行业精准营销领域,通过锘崴信.隐私保护计算平台对接医院和体检中心,以及银联或移动运营商等数据库,对用户的健康状况和财富状况进行多维度分析,以构建更精准的营销模型并提高相关保险的转化率;在政务服务领域,锘崴科技与国家职能部门展开深度合作,帮助其完成政务数据的开放和应用。同时通过隐私保护计算,实现密态下人脸识别的技术支持,有效避免人像采集过程中诸多明文信息交互的合规风险。“锘崴科技的3项产品功能基本可以覆盖目前隐私保护计算在数据领域的绝大多数需求。”王爽说,“隐私计算的技术门槛也成为我们在行业激烈竞争之中的突出优势。”目前,锘崴科技已经完成了超过100个项目的PoC(验证性测试),有50多个落地的项目,潜在客户则超过200家。成立不到两年的锘崴科技也在2021年顺利完成亿元级B轮融资,着眼于技术落地的锘崴科技已然成为行业加速前进过程中的重要力量。

构建数据网络,做链接数据与价值间的桥梁,打造最安全高效的大数据价值转化平台,是锘崴科技未来的奋斗目标。王爽希望通过这一平台,让每个使用者都能以安全、快捷、方便的模式,完成不同场景下合规的、受保护的数据价值转换,使数据发挥其最大价值。在隐私计算节点搭建和推动相关行业标准方面重点发力,让打通跨行业数据变成一件水到渠成的事情,王爽和他带领的锘崴科技一直在路上。

(责编:唐一白)


分享到:
杂志
本期封面

2024年10月

上一期 下一期