HyperAIHyperAI

Command Palette

Search for a command to run...

4 个月前
LLM
生成式 AI

AI模型更新竟会泄露敏感数据?“指纹”暴露成新隐患

大型语言模型(LLM)在修复错误或删除用户敏感信息时,可能因参数更新而泄露数据,这一安全隐患近日被中国科研团队揭示。上海期智研究院、华东师范大学、清华大学及中国科学院的研究人员发现,当前主流的“定位-编辑”模型修复方法在修改模型参数时,会留下可被逆向追踪的“更新指纹”,攻击者可借此恢复被删除的敏感信息。 研究团队指出,LLM在训练过程中会“记忆”海量文本,包括可能涉及隐私的敏感内容。为修正错误或清除这些信息,研究人员常采用模型编辑技术,仅调整部分参数,避免耗时的重新训练。然而,该团队发现,这些参数更新本身会暴露原始数据的特征,形成可被分析的“指纹”。 为此,他们提出名为KSTER(KeySpace Reconstruction-then-Entropy Reduction)的两阶段逆向攻击框架。第一阶段通过谱分析提取参数更新矩阵的行空间,识别出被编辑内容的“指纹”;第二阶段利用熵优化策略,重构编辑时的语义上下文。实验表明,该攻击在GPT-J、Llama-3和Qwen-2.5等多个主流模型上均能以高成功率恢复被删除的敏感数据。 为应对这一风险,研究团队还提出名为“子空间伪装”(subspace camouflage)的防御策略。该方法在参数更新时引入语义伪装信息,干扰攻击者对“指纹”的识别,从而有效降低数据泄露风险,同时不损害模型编辑的实际效果。 相关攻击代码与防御方案已开源,供学术界进一步研究。该研究提醒业界:模型编辑虽高效,但必须同步加强安全防护。未来,此类发现或将推动更安全的模型编辑机制发展,助力保护用户隐私,防范敏感数据泄露。

相关链接

AI模型更新竟会泄露敏感数据?“指纹”暴露成新隐患 | 热门资讯 | HyperAI超神经