大規模データセットと(中程度の)大規模言語モデルに対する強力なメンバーシップ推論攻撃
Jamie Hayes, Ilia Shumailov, Christopher A. Choquette-Choo, etc
公開日: 5/28/2025

要約
最新のメンバーシップ推論攻撃(MIAs)は通常、多くの参照モデルを訓練する必要があるため、大規模な事前学習言語モデル(LLMs)へのスケーリングが困難です。その結果、以前の研究では、参照モデルの訓練を避ける弱い攻撃(例:ファインチューニング攻撃)に依存するか、または小規模なモデルとデータセットに対する強い攻撃を使用していました。しかし、弱い攻撃は脆弱であることが示されており、任意に近い成功率を達成します。また、単純化された設定での強い攻撃からの洞察は、今日のLLMsには適用できません。これらの課題により重要な問いが提起されました:過去の研究で観察された制限は攻撃設計の選択によるものなのか、それともMIAsは根本的にLLMsに対して効果がないのか?この問いに対処するために、我々はLiRA - 最も強力なMIAsの一つ - を10Mから1Bパラメータを持つGPT-2アーキテクチャにスケーリングし、C4データセットから20Bトークン以上を使用して参照モデルを訓練しました。我々の結果は以下の3つの重要な点でLLMsにおけるMIAsの理解を進展させました:(1) 強力なMIAsは事前学習済みのLLMsに対して成功することが可能である;(2) ただし、実用的な設定ではその有効性は依然として限定的であり(例:AUC<0.7)、(3) MIA成功と関連するプライバシー指標との関係性は、過去の研究が示唆したほど単純ではない。注:AUC (Area Under the Curve) とは受信者操作特性曲線下面積のことです。