HyperAIHyperAI

Command Palette

Search for a command to run...

安全比对方法 Deep Aligned Visual Safety Prompt

日期

9 小时前

论文 URL

2506.09353

Deep Aligned Visual Safety Prompt(DAVSP)是由清华大学研究团队于 2025 年 11 月提出的,相关研究成果发表于论文「DAVSP: Safety Alignment for Large Vision-Language Models via Deep Aligned Visual Safety Prompt」,已被 AAAI 2026 录用。

DAVSP 是一种针对大型语言视觉模型(LVLM)的新型安全比对方法,有效提升了 LVLM 抵抗恶意查询的能力,并保留了模型在无害查询上的实用性。该方法在输入图像周围构建了一个可训练的填充区域,作为视觉安全提示,这保留了原始的视觉特征,并消除了像素扰动带来的表现瓶颈,通过视觉安全提示(VSP)实现了范式转变。研究还提出一种名为深度对齐(Deep Alignment,DA)的新训练策略。基于观察到 LVLMs 在其激活空间中固有编码有害信息,研究人员构建了一个有害向量,捕捉模型内部表征中区分恶意查询与良性查询的语义方向。

DAVSP 概述

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供