AIモデル編集で生じる更新痕跡が機密情報漏洩のリスクへ
大規模言語モデル(LLM)の修正手法に新たなセキュリティリスクが発覚した。上海理工大学、東華師範大学、清华大学、中国科学院の研究チームが、モデル編集プロセス中に機密情報が漏洩する可能性を明らかにした。この研究では、LLMの誤り修正やユーザー情報の削除に使われる「locate-then-edit」と呼ばれる手法が、意図せずデータの「更新痕跡(更新ファイントプリント)」を残すことが判明した。この痕跡を悪用することで、攻撃者は編集された内容を逆算して回復できるという。 研究チームは、このリスクを活用した二段階の逆解析攻撃「KSTER」(KeySpace Reconstruction-then-Entropy Reduction)を開発。まず、モデルパラメータの更新行列の構造から編集対象の「情報の痕跡」を抽出し、次に文脈を復元するエンタロピー制御攻撃で、元のデータを高精度で再構成することに成功した。実験では、GPT-J、Llama-3、Qwen-2.5といった複数のLLMで同様の漏洩が確認された。 この問題の背景には、LLMが学習データに含まれる大量のトークンを記憶している点がある。編集は再学習を避けるための効率的な手段だが、更新されたパラメータに「情報の影」が残る。これにより、攻撃者が「見えないチャネル」を通じて機密情報を抽出できる。 研究チームは、このリスクに対処する防御策「サブスペース・カモフラージュ(subspace camouflage)」を提案。編集の際、偽の文脈情報を混入させることで、更新痕跡を隠蔽する。この方法は編集の効果を損なわずに、情報漏洩のリスクを大幅に低減できると報告している。 研究のコードはGitHubで公開されており、今後のセキュリティ対策の基盤となる可能性がある。LLMの安全性を高めるためには、編集技術の進化と同時に、情報漏洩防止の仕組みの整備が不可欠である。
