
摘要
大型语言模型(LLMs)的卓越推理能力源于通过可验证奖励进行强化而产生的认知行为。本研究探讨了如何将这一原则应用于多模态大型语言模型(MLLMs),以解锁高级视觉推理能力。我们提出了一种基于Qwen2.5-VL-7B的两阶段范式:首先进行大规模的语言冷启动微调,然后进行近1000步的多模态强化学习(RL),其规模超过了所有先前的开源尝试。这项开创性工作揭示了三个基本见解:1) 由于语言心理图像的存在,行为转移在冷启动初期就意外地出现;2) 冷启动广泛记忆视觉行为,而强化学习则关键在于识别并放大有效模式;3) 转移策略性地倾向于高效用的行为,如视觉反思。我们的最终模型Open-Vision-Reasoner(OVR)在一系列推理基准测试中取得了最先进的性能,包括在MATH500上达到95.3%,在MathVision上达到51.8%,以及在MathVerse上达到54.6%。我们发布了该模型、数据及训练动态,以促进更具能力、行为对齐的多模态推理器的发展。