2 个月前

摘要

大规模视觉-语言模型（Large Vision-Language Models, LVLMs）在各类应用中取得了令人瞩目的进展，但仍易受到利用视觉模态的恶意查询攻击。现有的对齐方法通常难以在有效保持良性输入可用性的同时，抵御恶意查询。为应对这一挑战，我们提出了一种深度对齐视觉安全提示（Deep Aligned Visual Safety Prompt, DAVSP），其基于两项关键创新。首先，我们引入了视觉安全提示（Visual Safety Prompt），在输入图像周围添加一个可训练的填充区域，该设计在保留原始视觉特征的同时，扩展了优化空间。其次，我们提出了一种名为“深度对齐”（Deep Alignment）的新方法，通过在模型激活空间中施加监督信号来训练视觉安全提示，从而增强LVLM对恶意查询的内在感知能力，实现比以往方法更深层次的对齐。在两个代表性LVLM上，针对五个基准测试的大量实验表明，DAVSP能够在有效抵御恶意查询的同时，充分保留良性输入的使用价值。此外，DAVSP展现出出色的跨模型泛化能力。消融实验进一步验证，视觉安全提示与深度对齐均为不可或缺的核心组件，二者协同作用，共同决定了该方法的整体有效性。

源 PDF 查看代码