Command Palette
Search for a command to run...
Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

要約
視覚モダリティに対するジャイルブレイク攻撃は一般的に、人間には感知できない敵対的摂動に依存しているのに対し、テキストモダリティに対する攻撃は、通常、視認可能な変更(例えば意味のない接尾辞など)を必要とするとされている。本論文では、「バリエーションセレクタ」と呼ばれる一連のUnicode文字を活用した、人間には感知できないジャイルブレイクを提案する。悪意ある質問にこの無視可能なバリエーションセレクタを付加することで、画面表示上は元の悪意ある質問とまったく同一に見えるが、トークン化の過程では「秘密裏に」変更が加えられる。本研究では、有害な応答を誘発するための敵対的接尾辞を生成するための「検索連鎖パイプライン」を提案する。実験の結果、本手法により、4つの調整済み大規模言語モデルに対して高い攻撃成功確率が達成され、また、プロンプトインジェクション攻撃にも汎化可能であることが確認された。なお、すべての攻撃において、テキストプロンプトに視認可能な変更は一切生じない。本研究のコードは、https://github.com/sail-sg/imperceptible-jailbreaks にて公開されている。