Command Palette

Search for a command to run...

1 个月前

对大型语言模型的不可察觉的越狱攻击

Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

对大型语言模型的不可察觉的越狱攻击

摘要

针对视觉模态的越狱攻击通常依赖于人眼难以察觉的对抗性扰动,而针对文本模态的攻击则普遍被认为需要可见的修改(例如非语义后缀)。本文提出了一种不可察觉的越狱方法,该方法利用一类名为“变体选择符”(variation selectors)的Unicode字符。通过在恶意问题后附加不可见的变体选择符,越狱提示在屏幕上显示时与原始恶意问题在视觉上完全一致,但其分词结果却“秘密地”被改变。我们提出了一种搜索链(chain-of-search)流水线,用于生成此类对抗性后缀,以诱导模型产生有害响应。实验结果表明,我们的不可察觉越狱方法在四类对齐的大型语言模型上均取得了较高的攻击成功率,并可泛化至提示注入攻击,且在书面提示中完全不产生任何可见修改。相关代码已开源,地址为:https://github.com/sail-sg/imperceptible-jailbreaks。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供