17 days ago
面向听者的奖励性思考在视觉语言模型中的图像偏好研究
Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets

摘要
训练稳健且具有泛化能力的奖励模型以匹配人类视觉偏好,对于使文本到图像和文本到视频生成模型与人类意图对齐至关重要。然而,当前的奖励模型往往无法泛化,监督微调会导致记忆效应,需要复杂的注释流程。尽管强化学习(RL),特别是群体相对策略优化(GRPO)可以提高泛化能力,但我们发现了一个关键的失败模式:当模型的推理过程与其独立的、冻结的视觉-语言模型(“听者”)评估同一输出时出现矛盾,推理准确性会显著下降。为了解决这一问题,我们引入了一种增强型GRPO框架——听者增强型GRPO框架。在此框架中,“听者”重新评估推理者的思维链路,提供一个密集且校准的信心分数,从而塑造强化学习的奖励信号。这不仅鼓励推理者给出正确的答案,还促使它生成能够说服独立模型的解释。我们的基于听者的奖励方案在ImageReward基准测试中取得了最佳准确率(67.4%),显著提高了大规模人类偏好数据集上的分布外(OOD)性能(120万票数,最高提升+6%),并减少了与强大的GRPO和SFT基线相比的推理矛盾。这些结果表明,基于听者的奖励机制为使视觉-语言模型与复杂的人类偏好对齐提供了一条可扩展且数据高效的路径。我们将在此处发布我们的推理模型:https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner。