HyperAI超神经

SAEs 可以提高遗忘效果:动态稀疏自动编码器在 LLMs 中的精确遗忘保护措施

Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith
发布日期: 4/16/2025
SAEs 可以提高遗忘效果:动态稀疏自动编码器在 LLMs 中的精确遗忘保护措施
摘要

机器遗忘(Machine unlearning)是一种有前景的方法,通过从模型中移除不希望的知识来提高大型语言模型(LLM)的安全性。然而,现有的基于梯度的遗忘方法存在计算成本高、超参数不稳定、顺序遗忘能力差、易受重新学习攻击、数据效率低以及缺乏可解释性等问题。尽管稀疏自编码器(Sparse Autoencoders)能够通过激活基础的遗忘来改善这些方面,但先前的方法在性能上仍不及基于梯度的方法。本研究证明,与这些早期发现相反,当动态使用时,稀疏自编码器(SAEs)可以显著提高遗忘效果。我们引入了一种新的精确遗忘方法——动态去噪自编码器护栏(Dynamic DAE Guardrails, DSG),该方法利用了原则性的特征选择和动态分类器。实验结果表明,DSG 显著优于现有的领先遗忘方法,实现了更优的遗忘-效用权衡。DSG 解决了基于梯度的遗忘方法的关键缺陷——提高了计算效率和稳定性,在顺序遗忘中表现出更强的鲁棒性,增强了对重新学习攻击的抵抗能力,提高了数据效率,包括零样本设置,并且使遗忘过程更具可解释性。