联邦学习也不安全?英伟达研究用「没有隐私」的数据直接重建原图

作者: 机器之心 2021-04-29 14:40:11

 联邦学习因为数据不出本地的隐私保护策略,一直被人们认为是高效解决 AI 计算问题,并保护个人数据的重要方向,目前已经出现了大量相关的研究和应用。然而,随着目前法律法规对于数据限制的加深,从梯度、模型参数中反推出用户数据的方法正在显现。

在不少情况下,利用被模糊的数据,以及机器学习处理过程中的参数,我们能够重建出一个人的基本信息。而最近,英伟达的研究人员更进一步,甚至直接通过机器学习中的梯度数据重建了图像。新的研究让人们不禁怀疑:联邦学习难道实际上并不安全?

具体地,研究者提出了一种 GradInversion 方法,通过反转给定的批平均梯度(batch-averaged gradients)从随机噪声中恢复隐藏的原始图像。该研究已被计算机视觉顶会 CVPR 2021 接收。

论文链接:
https://arxiv.org/pdf/2104.07586.pdf

研究者提出了一种标签修复方法,利用最后的全连接层梯度来恢复真值标签。他们还提出了一种群体一致性正则化项,它是基于多种子优化和图像配准,用于提升图像重建质量。实验表明,对于 ResNet-50 这样的深度网络,利用批平均梯度完全恢复细节丰富的单个图像是可行的。

联邦学习也不安全?英伟达研究用「没有隐私」的数据直接重建原图

研究者在论文中表示,与 BigGAN 等 SOTA 生成对抗网络相比,他们提出的非学习(non-learning)图像恢复方法可以恢复隐藏输入数据的更丰富细节。

更重要的是,即使当图像批大小增加至 48,通过反转批梯度,该方法依然可以完全恢复 224×224 像素大小且具有高保真度和丰富细节的图像。

对于这项研究的结果,有网友认为:「这就是差分隐私(differential privacy, DP)存在的理由,没有差分隐私的联邦学习无法保证隐私。」

联邦学习也不安全?英伟达研究用「没有隐私」的数据直接重建原图

研究概述

下图 1(a)中,研究者提出 GradInversion,通过反转批平均梯度来恢复高保真度和丰富细节的隐藏训练图像;图 1(b)展示了将噪声变换至输入图像的优化过程,首先从全连接层的梯度中恢复标签,然后在保真度正则化和基于注册的群体一致性正则化条件下优化输入以匹配目标梯度,从而提升重建质量。

这种方法能够从 ResNet-50 批梯度中恢复 224×224 像素的 ImageNet 图像样本,这在以前是无法实现的。

联邦学习也不安全?英伟达研究用「没有隐私」的数据直接重建原图

方法概览。

由于卷积神经网络(CNN)的平移不变性,基于梯度的反转面临另一项挑战——目标对象的精确定位。在理想场景中,优化可以收敛至一个真值(ground truth)。

但如下图 2 所示,研究者观察到,当使用不同的 seed 重复优化过程时,每个优化过程均可以得到局部最小值。这些局部最小值在所有层级上分配语义正确的图像特征,但彼此之间又有不同:图像围绕着真值变换,并专注不同的细节。

联邦学习也不安全?英伟达研究用「没有隐私」的数据直接重建原图

研究者提出了一种群体一致性正则化项,它通过联合优化的方式同时利用多个 seed,具体流程如下图 3 所示:

联邦学习也不安全?英伟达研究用「没有隐私」的数据直接重建原图

实验结果

研究者以 224×224 像素为范例,在大规模 1000-class ImageNet ILSVRC 2012 数据集上对该方法在分类任务上的效果进行了评估。

首先,他们在批大小为 8 时,对 224×224 像素大小的图像进行了效果对比。下图 4 和表 4 分别为 GradInversion 方法与 Latent Projection、DeepInversion、Inverting Gradients 和 Deep Gradient Leakage 等 SOTA 方法的定性和定量对比,结果显示该方法在视觉效果和数值上均胜出。

联邦学习也不安全?英伟达研究用「没有隐私」的数据直接重建原图

接着,研究者增加了批大小,使用 32GB 英伟达 V100 GPU 将批大小增至 48。如下图 6 所示,随着批大小的增加,可恢复图像的数量逐渐减少。

联邦学习也不安全?英伟达研究用「没有隐私」的数据直接重建原图

不过,GradInversion 方法依然可以获取一定数量的原始视觉信息,有时还能实现完整的重建,具体如下图 7 所示:

一作简介

该论文的一作是尹洪旭(Hongxu Yin),2015 年毕业于新加坡南洋理工大学电气与电子工程专业,获工学学士学位,在美国普林斯顿大学电气工程系攻读博士学位,现在是英伟达(硅谷)研究科学家。

他的研究集中在高效的深度神经网络、无数据模型压缩 / 神经结构搜索和边缘医疗推理。

个人主页:
https://scholar.princeton.edu/hongxu

数据 安全 隐私
上一篇:谷歌实现2种新的强化学习算法,“比肩”DQN,泛化性能更佳 下一篇:NLP领域索引神器,3000+代码库,一键查找论文、GitHub库
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
CV内卷!心理学家学会人脸识别,训练600万视频区分世界各地表情

机器学习又跨界发Nature啦!美国东北大学的研究员将研究成果发表在Nature上,探究世界各地人类的表情有什么不一样?结果相关率只有30%。

佚名 ·  2021-05-31 13:19:55
自动驾驶汽车领域究竟在纠结些什么?

正常来说,自动驾驶受到认可,技术路线正常迭代,同样会受到市场认可。但这个报告中,造车新势力配置L3自动驾驶,及传统车企配置L2辅助驾驶的比例却并没有显著提升,甚至还有所下降。

佚名 ·  2021-05-31 10:46:16
最快AI计算机开动,每秒4百亿亿浮点运算!正拼接最大宇宙3D地图

近日,被誉为全球最快的人工智能工作负载超级计算机——Perlmutte宣布开启。这台新超级计算机以拥有6144个英伟达A100张量核心图形处理器,将负责拼接有史以来最大的可见宇宙3D地图。

佚名 ·  2021-05-31 09:48:10
清华唐杰团队造了个“中文ai设计师”,效果超Dall·E

最近清华大学唐杰团队打造了一个“中文版Dall·E”——CogView,它可以将中文文字转图像。

晓查 ·  2021-05-31 09:45:51
中国人开始反算法:不登录、不点赞、不关注、不评论

“算法不讲武德!”越来越多年轻人发觉,生活正在被算法控制。

深燃团队 ·  2021-05-31 09:03:12
最喜欢随机森林?TensorFlow开源决策森林库TF-DF

近日,TensorFlow 开源了 TensorFlow 决策森林 (TF-DF)。TF-DF 是用于训练、服务和解释决策森林模型(包括随机森林和梯度增强树)生产方面的 SOTA 算法集合。

机器之心 ·  2021-05-28 17:18:44
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载