Command Palette
Search for a command to run...
Rishi Rajesh Shah Chen Henry Wu Shashwat Saxena Ziqian Zhong Alexander Robey Aditi Raghunathan

要約
長文脈言語モデル(LM)の最近の進展により、数百万トークンに及ぶ入力を処理できるようになり、コンピュータ操作エージェントを含む複雑なタスクにおける能力が拡張されている。しかし、こうした拡張された文脈がもたらすセキュリティ上の影響については、依然として不明な点が多い。このギャップを埋めるために、本研究では「NINJA(Needle-in-haystack jailbreak attack の略)」と呼ばれる新規なアプローチを提案する。NINJAは、有害なユーザーの意図に、無害でモデル自身が生成したコンテンツを付加することで、整列済みLM(aligned LMs)のセキュリティ制限を回避する手法である。本手法の鍵となる発見は、有害な意図の配置位置がセキュリティに大きな影響を及ぼす点である。標準的なセキュリティベンチマーク、HarmBenchを用いた実験の結果、NINJAはLLaMA、Qwen、Mistral、Geminiを含む最先端のオープンソースおよび非公開モデルにおいて、攻撃成功確率を顕著に向上させることを示した。従来の jailbreaking 手法とは異なり、本手法はリソース消費が低く、他モデルへの転移性に優れ、検出されにくい特徴を持つ。さらに、NINJAが計算資源の観点で最適であることも示した。固定された計算リソース下では、best-of-N jailbreak攻撃において、試行回数を増やすよりも文脈長を延長する方がより高い効果を発揮することが確認された。これらの結果は、注意深く意図の位置を設計した「無害な長文脈」でさえ、現代のLMに根本的な脆弱性をもたらす可能性があることを示している。