Command Palette
Search for a command to run...
Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

摘要
针对视觉模态的越狱攻击通常依赖于人眼难以察觉的对抗性扰动,而针对文本模态的攻击则普遍被认为需要可见的修改(例如非语义后缀)。本文提出了一种不可察觉的越狱方法,该方法利用一类名为“变体选择符”(variation selectors)的Unicode字符。通过在恶意问题后附加不可见的变体选择符,越狱提示在屏幕上显示时与原始恶意问题在视觉上完全一致,但其分词结果却“秘密地”被改变。我们提出了一种搜索链(chain-of-search)流水线,用于生成此类对抗性后缀,以诱导模型产生有害响应。实验结果表明,我们的不可察觉越狱方法在四类对齐的大型语言模型上均取得了较高的攻击成功率,并可泛化至提示注入攻击,且在书面提示中完全不产生任何可见修改。相关代码已开源,地址为:https://github.com/sail-sg/imperceptible-jailbreaks。