HyperAI超神经

大规模数据集与(中等规模)语言模型上的强成员推理攻击

Jamie Hayes, Ilia Shumailov, Christopher A. Choquette-Choo, etc
发布日期: 5/28/2025
大规模数据集与(中等规模)语言模型上的强成员推理攻击
摘要

最先进的成员推理攻击(Membership Inference Attacks, MIAs)通常需要训练大量参考模型,这使得将这类攻击扩展到大规模预训练语言模型(LLMs)变得困难。因此,已有研究往往依赖于无需训练参考模型的弱攻击方式(例如微调攻击),或是将更强的攻击方法应用于小规模模型和数据集。然而,研究表明,弱攻击方法往往不稳定,其成功率接近于随机;而在简化环境中对小模型进行的强攻击所得出的结论,也难以适用于当前的大型语言模型。这些挑战引发了一个关键问题:已有工作中观察到的局限性是由攻击设计本身造成的,还是因为成员推理攻击在 LLM 上本质上无效? 我们通过将当前最强的攻击方法之一——LiRA(Likelihood Ratio Attack)扩展到 GPT-2 架构的模型(参数规模从 1000 万到 10 亿)来探讨这一问题,并使用超过 200 亿个 C4 数据集中的标记来训练参考模型。我们的研究在以下三个方面推进了对 LLM 上 MIA 攻击的理解:强成员推理攻击在预训练的 LLM 上是可行的;但其效果在实际应用中依然有限(例如 AUC < 0.7);成员推理攻击的成功率与相关隐私指标之间的关系,并不像此前研究中所认为的那样直接或清晰。这表明,要真正理解和防御 MIA 在大语言模型中的风险,需要重新审视当前的攻击评估方法与隐私度量标准。