Command Palette
Search for a command to run...
マスクの裏の悪魔:拡散LLMの新規安全性脆弱性
マスクの裏の悪魔:拡散LLMの新規安全性脆弱性
概要
拡散型大規模言語モデル(dLLMs)は最近、自己回帰型LLMsの強力な代替手段として登場し、並列デコーディングと双方向モデリングを活用することで、より高速な推論と高い対話性を提供しています。しかし、コード生成やテキスト補完において優れた性能を示しているにもかかわらず、私たちは根本的な安全性の問題を特定しました:既存のアライメントメカニズムは、コンテクストに応じて変化するマスク入力の敵対的プロンプトに対するdLLMsの保護に失敗しており、新たな脆弱性が露呈しています。この課題に対処するために、私たちはDIJAという初めての体系的な研究およびジャイルブレーキ攻撃フレームワークを提示します。DIJAは、dLLMsのテキスト生成メカニズムである双方向モデリングと並列デコーディングを活用して、敵対的なインターリーブされたマスク-テキストプロンプトを作成します。双方向モデリングは、有害であってもマスク区間に対して文脈的に一貫した出力を生成させるためのものであり、並列デコーディングはモデルによる動的フィルタリングや危険なコンテンツの拒否サンプリングを制限します。これにより標準的なアライメントメカニズムが機能しなくなり、有害な完了がアライメント調整済みのdLLMsで発生する可能性があります。特に、有害な行動や危険な指示が直接プロンプトに露出している場合でも同様です。包括的な実験を通じて、私たちはDIJAが既存のジャイルブレーキ手法を大幅に上回ることを示しました。これはdLLMアーキテクチャにおけるこれまで見落とされていた脅威面を明らかにするものです。特に私たちの手法はDream-Instructにおいて最大100%のキーワードベースASR(Attack Success Rate)を達成し、JailbreakBenchでの評価者ベースASRでは最強の先行基準ReNeLLMよりも最大78.5%上回り、StrongREJECTスコアでは37.7ポイント上回りました。これらの結果はジャイルブレーキプロンプト内で有害なコンテンツを書き換えたり隠したりすることなく得られています。これらの知見は、この新興クラスの大規模言語モデルにおける安全性アライメントを見直す緊急性を強調しています。コードはhttps://github.com/ZichenWen1/DIJA で公開されています。