11 天前

PATE-GAN:基于差分隐私保证生成合成数据

{James Jordon, Mihaela van der Schaar, Jinsung Yoon}
PATE-GAN:基于差分隐私保证生成合成数据
摘要

机器学习有望帮助众多领域充分利用日益丰富的大型数据集。然而,由于实现这一潜力往往需要以可能损害隐私的方式共享数据,因此其实际应用仍受到严重制约。本文研究了一种保障生成对抗网络(Generative Adversarial Networks, GAN)生成器(generator)隐私性的方法,具体为差分隐私(differential privacy)保护机制。所提出的模型能够生成合成数据,供算法训练与验证,或用于举办数据竞赛,同时确保原始数据集的隐私不被泄露。我们的方法基于私有教师集成模型的聚合机制(Private Aggregation of Teacher Ensembles, PATE),并将其适配应用于GAN框架。我们提出的改进框架(命名为PATE-GAN)能够严格限制任一单一样本对模型的影响,从而实现更紧致的差分隐私保证。相较具有相同隐私约束的其他模型,PATE-GAN在性能上表现出显著优势。此外,我们从一个全新的视角评估合成数据的质量:我们认为,若合成数据对机器学习研究者具有实际价值,则在合成数据集上训练与测试的两种算法之间的相对性能,应与它们在原始数据集上训练与测试时的相对性能保持一致。我们在多个数据集上的实验结果表明,PATE-GAN在该标准以及其他合成数据质量指标上,均持续优于当前最先进的方法。

PATE-GAN:基于差分隐私保证生成合成数据 | 最新论文 | HyperAI超神经