GuardReasoner-VL:通过强化推理保护多模态大模型
Yue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, etc
发布日期: 5/20/2025

摘要
为了提升多模态大模型(VLMs)的安全性,本文提出了一种新颖的基于推理的VLM安全守护模型,称为 GuardReasoner-VL。其核心思想是通过在线强化学习(online RL)激励守护模型在做出内容审核决策前进行深思熟虑的推理。首先,我们构建了一个名为 GuardReasoner-VLTrain 的推理语料库,包含 12.3万条样本 和 63.1万个推理步骤,涵盖文本、图像以及文本-图像输入形式。在此基础上,我们通过监督微调(SFT)为模型的推理能力进行冷启动。此外,我们进一步通过在线强化学习增强模型在内容审核中的推理能力。 具体而言,为了提升样本的多样性与难度,我们先进行拒绝采样(rejection sampling),再通过我们提出的 安全感知数据拼接方法 进行数据增强。同时,我们使用动态裁剪参数,在训练初期鼓励探索,在后期促进利用。为了在性能与Token效率之间取得平衡,我们设计了一种 长度感知的安全奖励机制,综合考虑审核准确性、格式规范性和Token消耗等因素。大量实验结果表明,我们的模型具有明显优势。在F1分数方面,平均 领先第二名19.27%,表现尤为出色。