通过强化微调实现统一的多模态链式思维奖励模型
Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
发布日期: 5/12/2025

摘要
近期在多模态奖励模型(RMs)方面的进展显示了其在提供奖励信号以使视觉模型与人类偏好对齐方面具有显著潜力。然而,当前的RMs通常仅限于提供直接响应或进行浅层次的推理过程,这往往导致奖励信号不准确。我们认为,在奖励推理过程中引入明确的长链思考(Chain of Thought, CoT)可以显著增强其可靠性和鲁棒性。此外,我们相信一旦RMs内化了CoT推理能力,通过隐式推理能力也可以提高其直接响应的准确性。为此,本文提出了UnifiedReward-Think,这是首个统一的多模态基于CoT的奖励模型,能够在视觉理解和生成任务中进行多维度、逐步的长链推理。具体而言,我们采用了一种探索驱动的强化微调方法来激发和激励模型潜在的复杂推理能力:(1) 首先,我们使用少量图像生成偏好数据来提炼GPT-4o的推理过程,这用于模型的冷启动阶段,以学习CoT推理的格式和结构。(2) 其次,通过利用模型的先验知识和泛化能力,我们准备了大规模统一的多模态偏好数据,以激发模型在各种视觉任务中的推理过程。在此阶段,正确的推理输出被保留用于拒绝采样以优化模型。(3) 最后,错误预测样本被用于基于组相对策略优化(Group Relative Policy Optimization, GRPO)的强化微调,使模型能够探索多样化的推理路径并优化出正确且鲁棒的解决方案。广泛的实验表明,在各种视觉奖励任务中我们的模型表现出色。