Zixun Xiong Gaoyi Wu Qingyang Yu Mingyu Derek Ma Lingfeng Yao Miao Pan Xiaojiang Du Hao Wang

要約
大規模言語モデル(LLM)をゼロから学習するコストが高いため、LLMの知的財産(IP)を保護することはますます重要になっています。IP所有権の検証における標準的なアプローチとして、LLMの指紋認証(fingerprinting)はこの課題に対処する上で中心的な役割を果たしています。従来のLLM指紋認証手法は、モデル固有の特徴を抽出または埋め込むことで所有権を検証するものですが、検証プロセス中に発生する攻撃の可能性を無視しており、モデル盗難者がLLMの推論プロセスを完全に制御する状況では、その有効性が失われます。このような環境下では、攻撃者はプロンプトと応答のペアを共有することで指紋の学習回避(unlearning)を試みたり、出力を操作して正確一致検証を回避する可能性があります。本研究では、モデル盗難者が推論プロセスをエンドツーエンドで制御する状況でも信頼性の高い検証が可能な、初めての指紋認証手法「iSeal」を提案します。iSealは、モデル本体と外部モジュールの両方に独自の特徴を埋め込み、誤り訂正機構と類似度に基づく検証戦略によって強化されています。これらの構成要素は、共謀に基づく指紋学習回避や出力操作といった検証時攻撃に対して耐性を持ち、理論的解析と実証結果の両面から裏付けられています。iSealは、12種類のLLMに対して10種以上の攻撃に対して100%の指紋成功確率(FSR)を達成する一方で、従来手法は学習回避や出力操作に対しては失敗することが確認されました。