Command Palette

Search for a command to run...

16 天前

在针堆中越狱

Rishi Rajesh Shah Chen Henry Wu Shashwat Saxena Ziqian Zhong Alexander Robey Aditi Raghunathan

在针堆中越狱

摘要

近年来,长上下文语言模型(LMs)的进展已实现百万词级别的输入,显著拓展了其在复杂任务(如计算机使用代理)中的能力。然而,这些扩展上下文带来的安全影响仍不明确。为填补这一空白,我们提出NINJA(全称“针尖藏于 haystack 的越狱攻击”),一种通过在有害用户目标后附加良性、由模型自动生成的内容,从而实现对对齐语言模型的越狱方法。我们方法的关键发现是:有害目标在上下文中的位置在安全性中起着至关重要的作用。在标准安全基准测试HarmBench上的实验表明,NINJA显著提升了当前最先进的开源与专有模型(包括LLaMA、Qwen、Mistral和Gemini)的攻击成功率。与以往的越狱方法不同,我们的方法具有资源消耗低、可迁移性强且更难被检测的特点。此外,我们进一步证明NINJA在计算资源利用上具有最优性——在固定计算预算下,增加上下文长度的效果优于增加“最佳N”(best-of-N)越狱尝试次数。这些发现表明,即使是在精心设计下生成的良性长上下文,若在目标位置上进行精心布局,仍会为现代语言模型引入根本性的安全漏洞。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供