HyperAIHyperAI

Command Palette

Search for a command to run...

Console
5 天前

DAVSP:通过深度对齐视觉安全提示实现大视觉-语言模型的安全对齐

Yitong Zhang Jia Li Liyi Cai Ge Li

DAVSP:通过深度对齐视觉安全提示实现大视觉-语言模型的安全对齐

摘要

大规模视觉-语言模型(Large Vision-Language Models, LVLMs)在各类应用中取得了令人瞩目的进展,但仍易受到利用视觉模态的恶意查询攻击。现有的对齐方法通常难以在有效保持良性输入可用性的同时,抵御恶意查询。为应对这一挑战,我们提出了一种深度对齐视觉安全提示(Deep Aligned Visual Safety Prompt, DAVSP),其基于两项关键创新。首先,我们引入了视觉安全提示(Visual Safety Prompt),在输入图像周围添加一个可训练的填充区域,该设计在保留原始视觉特征的同时,扩展了优化空间。其次,我们提出了一种名为“深度对齐”(Deep Alignment)的新方法,通过在模型激活空间中施加监督信号来训练视觉安全提示,从而增强LVLM对恶意查询的内在感知能力,实现比以往方法更深层次的对齐。在两个代表性LVLM上,针对五个基准测试的大量实验表明,DAVSP能够在有效抵御恶意查询的同时,充分保留良性输入的使用价值。此外,DAVSP展现出出色的跨模型泛化能力。消融实验进一步验证,视觉安全提示与深度对齐均为不可或缺的核心组件,二者协同作用,共同决定了该方法的整体有效性。

代码仓库

zhangyitonggg/davsp
官方
pytorch

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供