日期

2 个月前

论文 URL

标签

Deep Aligned Visual Safety Prompt（DAVSP）是由清华大学研究团队于 2025 年 11 月提出的，相关研究成果发表于论文「DAVSP: Safety Alignment for Large Vision-Language Models via Deep Aligned Visual Safety Prompt」，已被 AAAI 2026 录用。

DAVSP 是一种针对大型语言视觉模型（LVLM）的新型安全比对方法，有效提升了 LVLM 抵抗恶意查询的能力，并保留了模型在无害查询上的实用性。该方法在输入图像周围构建了一个可训练的填充区域，作为视觉安全提示，这保留了原始的视觉特征，并消除了像素扰动带来的表现瓶颈，通过视觉安全提示（VSP）实现了范式转变。研究还提出一种名为深度对齐（Deep Alignment，DA）的新训练策略。基于观察到 LVLMs 在其激活空间中固有编码有害信息，研究人员构建了一个有害向量，捕捉模型内部表征中区分恶意查询与良性查询的语义方向。