HyperAI超神经

推进多模态推理:从优化冷启动到分阶段强化学习

Shuang Chen, Yue Guo, Zhaochen Su, Yafu Li, Yulun Wu, Jiacheng Chen, Jiayu Chen, Weijie Wang, Xiaoye Qu, Yu Cheng
发布日期: 6/5/2025
推进多模态推理:从优化冷启动到分阶段强化学习
摘要

受Deepseek-R1在复杂文本任务中卓越推理能力的启发,许多研究试图通过直接应用强化学习(RL)来激励多模态大语言模型(MLLMs)具备类似的推理能力。然而,这些方法仍然难以激活复杂的推理过程。本文中,我们并未孤立地考察多模态强化学习,而是深入探讨了当前的训练流程,并识别出三个关键现象:1)有效的冷启动初始化对于增强MLLM的推理能力至关重要。令人惊讶的是,我们发现仅使用精心挑选的文本数据进行初始化即可在多模态强化学习之前实现超越许多近期多模态推理模型的性能。2)应用于多模态强化学习的标准GRPO(梯度策略优化)存在梯度停滞问题,这会降低训练的稳定性和性能。3)在多模态强化学习阶段之后进行纯文本强化学习训练可以进一步提升多模态推理能力。这种分阶段的训练方法有效地平衡了感知基础和认知推理的发展。通过结合上述见解并解决多模态强化学习中的问题,我们引入了ReVisual-R1,在MathVerse、MathVision、WeMath、LogicVista、DynaMath以及具有挑战性的AIME2024和AIME2025等基准测试中,实现了开源7B MLLMs的新最先进水平。