HyperAI超神经
12 days ago

戴上面具的恶魔:扩散型LLM的安全漏洞问题

Zichen Wen; Jiashu Qu; Dongrui Liu; Zhiyuan Liu; Ruixi Wu; Yicun Yang; Xiangqi Jin; Haoyun Xu; Xuyang Liu; Weijia Li; Chaochao Lu; Jing Shao; Conghui He; Linfeng Zhang
戴上面具的恶魔:扩散型LLM的安全漏洞问题
摘要

基于扩散的大规模语言模型(dLLMs)最近作为自回归大规模语言模型的强大替代方案崭露头角,通过并行解码和双向建模提供了更快的推理速度和更高的交互性。然而,尽管在代码生成和文本填充方面表现出色,我们发现了一个基本的安全问题:现有的对齐机制无法保护dLLMs免受上下文感知的、带有掩码输入的对抗性提示攻击,暴露出新的漏洞。为此,我们提出了DIJA,这是首个系统研究并构建针对dLLMs独特安全弱点的越狱攻击框架。具体而言,我们的DIJA设计了对抗性的交错掩码-文本提示,利用了dLLMs的文本生成机制,即双向建模和平行解码。双向建模使得模型即使在有害情况下也能生成与上下文一致的输出,而平行解码则限制了模型对不安全内容进行动态过滤和拒绝采样的能力。这导致标准对齐机制失效,使得经过对齐调优的dLLMs在提示中直接暴露有害行为或不安全指令时仍能生成有害补全。通过全面的实验,我们证明DIJA显著优于现有的越狱方法,揭示了dLLM架构中此前未被关注的威胁面。值得注意的是,我们的方法在Dream-Instruct上实现了高达100%的关键字攻击成功率(ASR),在JailbreakBench上的评估者基于ASR比最强的先前基线ReNeLLM高出78.5%,在StrongREJECT评分上高出37.7分,并且无需在越狱提示中重写或隐藏有害内容。我们的研究结果强调了重新思考这一新兴语言模型类别的安全对齐机制的紧迫性。代码可在https://github.com/ZichenWen1/DIJA 获取。