Command Palette
Search for a command to run...

摘要
近期的强化学习方法,如结果监督下的GRPO(Outcome-Supervised GRPO),在大型语言模型(LLMs)中推进了链式思维推理(Chain-of-Thought reasoning)的发展,但这些方法在多模态大型语言模型(MLLMs)中的应用尚未得到探索。为了应对多模态大型语言模型后训练方法缺乏严格评估的问题,我们引入了SEED-Bench-R1基准测试,该基准包含复杂的现实世界视频,需要平衡感知和推理能力。SEED-Bench-R1提供了一个大规模的训练集,并评估了三种逐步升级的挑战场景下的泛化能力:同分布、跨环境和跨环境任务。通过使用SEED-Bench-R1,我们发现标准的GRPO虽然提高了答案的准确性,但常常降低了推理步骤与答案之间的逻辑连贯性,一致性率仅为57.9%。这主要是因为奖励信号仅关注最终答案,鼓励捷径行为,并且严格的KL惩罚限制了探索空间。为了解决这一问题,我们提出了GRPO-CARE框架,这是一种注重一致性的强化学习框架,在没有显式监督的情况下优化答案正确性和推理连贯性。GRPO-CARE引入了一种双层奖励机制:(1) 基础奖励用于评估答案的正确性;(2) 自适应一致性奖金,通过比较模型的推理到答案的概率(利用一个缓慢演化的参考模型)与群体同伴进行计算。这种双重机制放大了对既正确又逻辑连贯的推理路径的奖励。用自适应奖金替代KL惩罚后,GRPO-CARE在SEED-Bench-R1上表现优于标准GRPO,在最困难的评估级别上性能提升了6.7%,一致性提高了24.5%。此外,GRPO-CARE还表现出强大的迁移能力,在多种视频理解基准测试中提升了模型性能。我们的工作贡献了一个系统设计的基准测试和一个可泛化的后训练框架,推动了更加可解释和鲁棒的多模态大型语言模型的发展。