9 天前

语言模型中的知识遗忘以缓解隐私风险

Joel Jang, Dongkeun Yoon, Sohee Yang, Sungmin Cha, Moontae Lee, Lajanugen Logeswaran, Minjoon Seo

摘要

预训练语言模型（Pretrained Language Models, LMs）在初始预训练阶段会记忆大量知识，其中可能包含违反个人隐私与身份信息的内容。以往针对语言模型隐私问题的研究主要集中在数据预处理和差分隐私方法上，但这些方法均需对底层语言模型进行重新训练。本文提出一种后处理（post hoc）的“知识遗忘”（knowledge unlearning）方法，作为降低语言模型隐私风险的替代方案。我们发现，仅对目标词元序列执行梯度上升（gradient ascent）操作，即可有效实现对特定知识的遗忘，且对大型语言模型的通用语言建模性能影响极小，甚至在少数迭代后还能显著提升模型性能。此外，我们发现顺序式遗忘（sequential unlearning）优于一次性遗忘全部数据，且遗忘效果高度依赖于所遗忘数据的领域类型（domain）。通过与先前的数据预处理方法以及一种已知可缓解语言模型隐私风险的解码方法进行对比，我们证明：在已知某些数据易受提取攻击（extraction attacks）的情况下，知识遗忘方法能够提供更强的实证隐私保障，同时在效率和鲁棒性方面均显著优于现有方法。相关代码与数据集已公开，可访问 https://github.com/joeljang/knowledge-unlearning 以复现本研究结果。