HyperAI

大型语言模型（LLM）在修复错误或删除用户敏感信息时，可能因参数更新而泄露数据，这一安全隐患近日被中国科研团队揭示。上海期智研究院、华东师范大学、清华大学及中国科学院的研究人员发现，当前主流的“定位-编辑”模型修复方法在修改模型参数时，会留下可被逆向追踪的“更新指纹”，攻击者可借此恢复被删除的敏感信息。研究团队指出，LLM在训练过程中会“记忆”海量文本，包括可能涉及隐私的敏感内容。为修正错误或清除这些信息，研究人员常采用模型编辑技术，仅调整部分参数，避免耗时的重新训练。然而，该团队发现，这些参数更新本身会暴露原始数据的特征，形成可被分析的“指纹”。为此，他们提出名为KSTER（KeySpace Reconstruction-then-Entropy Reduction）的两阶段逆向攻击框架。第一阶段通过谱分析提取参数更新矩阵的行空间，识别出被编辑内容的“指纹”；第二阶段利用熵优化策略，重构编辑时的语义上下文。实验表明，该攻击在GPT-J、Llama-3和Qwen-2.5等多个主流模型上均能以高成功率恢复被删除的敏感数据。为应对这一风险，研究团队还提出名为“子空间伪装”（subspace camouflage）的防御策略。该方法在参数更新时引入语义伪装信息，干扰攻击者对“指纹”的识别，从而有效降低数据泄露风险，同时不损害模型编辑的实际效果。相关攻击代码与防御方案已开源，供学术界进一步研究。该研究提醒业界：模型编辑虽高效，但必须同步加强安全防护。未来，此类发现或将推动更安全的模型编辑机制发展，助力保护用户隐私，防范敏感数据泄露。

相关链接

相关链接

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

Command Palette

AI模型更新竟会泄露敏感数据？“指纹”暴露成新隐患

相关链接

Command Palette

AI模型更新竟会泄露敏感数据？“指纹”暴露成新隐患

相关链接

Command Palette

AI模型更新竟会泄露敏感数据？“指纹”暴露成新隐患

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征