Yitong Zhang Jia Li Liyi Cai Ge Li

摘要
大规模视觉-语言模型(Large Vision-Language Models, LVLMs)在各类应用中取得了令人瞩目的进展,但仍易受到利用视觉模态的恶意查询攻击。现有的对齐方法通常难以在有效保持良性输入可用性的同时,抵御恶意查询。为应对这一挑战,我们提出了一种深度对齐视觉安全提示(Deep Aligned Visual Safety Prompt, DAVSP),其基于两项关键创新。首先,我们引入了视觉安全提示(Visual Safety Prompt),在输入图像周围添加一个可训练的填充区域,该设计在保留原始视觉特征的同时,扩展了优化空间。其次,我们提出了一种名为“深度对齐”(Deep Alignment)的新方法,通过在模型激活空间中施加监督信号来训练视觉安全提示,从而增强LVLM对恶意查询的内在感知能力,实现比以往方法更深层次的对齐。在两个代表性LVLM上,针对五个基准测试的大量实验表明,DAVSP能够在有效抵御恶意查询的同时,充分保留良性输入的使用价值。此外,DAVSP展现出出色的跨模型泛化能力。消融实验进一步验证,视觉安全提示与深度对齐均为不可或缺的核心组件,二者协同作用,共同决定了该方法的整体有效性。