HyperAIHyperAI

Command Palette

Search for a command to run...

大規模言語モデルに対する認識不能な改ざん

Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

概要

視覚モダリティに対するジャイルブレイク攻撃は一般的に、人間には感知できない敵対的摂動に依存しているのに対し、テキストモダリティに対する攻撃は、通常、視認可能な変更(例えば意味のない接尾辞など)を必要とするとされている。本論文では、「バリエーションセレクタ」と呼ばれる一連のUnicode文字を活用した、人間には感知できないジャイルブレイクを提案する。悪意ある質問にこの無視可能なバリエーションセレクタを付加することで、画面表示上は元の悪意ある質問とまったく同一に見えるが、トークン化の過程では「秘密裏に」変更が加えられる。本研究では、有害な応答を誘発するための敵対的接尾辞を生成するための「検索連鎖パイプライン」を提案する。実験の結果、本手法により、4つの調整済み大規模言語モデルに対して高い攻撃成功確率が達成され、また、プロンプトインジェクション攻撃にも汎化可能であることが確認された。なお、すべての攻撃において、テキストプロンプトに視認可能な変更は一切生じない。本研究のコードは、https://github.com/sail-sg/imperceptible-jailbreaks にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています