HyperAI超神经

近年来，长上下文语言模型（LMs）的进展已实现百万词级别的输入，显著拓展了其在复杂任务（如计算机使用代理）中的能力。然而，这些扩展上下文带来的安全影响仍不明确。为填补这一空白，我们提出NINJA（全称“针尖藏于 haystack 的越狱攻击”），一种通过在有害用户目标后附加良性、由模型自动生成的内容，从而实现对对齐语言模型的越狱方法。我们方法的关键发现是：有害目标在上下文中的位置在安全性中起着至关重要的作用。在标准安全基准测试HarmBench上的实验表明，NINJA显著提升了当前最先进的开源与专有模型（包括LLaMA、Qwen、Mistral和Gemini）的攻击成功率。与以往的越狱方法不同，我们的方法具有资源消耗低、可迁移性强且更难被检测的特点。此外，我们进一步证明NINJA在计算资源利用上具有最优性——在固定计算预算下，增加上下文长度的效果优于增加“最佳N”（best-of-N）越狱尝试次数。这些发现表明，即使是在精心设计下生成的良性长上下文，若在目标位置上进行精心布局，仍会为现代语言模型引入根本性的安全漏洞。

在针堆中越狱

Rishi Rajesh Shah Chen Henry Wu Shashwat Saxena Ziqian Zhong Alexander Robey Aditi Raghunathan

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

在针堆中越狱

Rishi Rajesh Shah Chen Henry Wu Shashwat Saxena Ziqian Zhong Alexander Robey Aditi Raghunathan

摘要

用 AI 构建 AI

Hyper Newsletters