Command Palette
Search for a command to run...
Sicheng Feng Kaiwen Tuo Song Wang Lingdong Kong Jianke Zhu Huan Wang

摘要
细粒度视觉推理仍是多模态大语言模型(MLLMs)面临的核心挑战。近期提出的 ReasonMap 任务凸显了这一差距:即使是最先进的 MLLMs,在诸如交通图这类结构化且信息丰富的场景中,也难以完成空间推理任务,而此类任务在实际应用与科学研究中均具有重要意义。然而,针对此类任务的标准强化学习(RL)方法常因奖励稀疏和优化不稳定而受阻。为解决这一问题,我们首先构建了 ReasonMap-Plus,一个扩展数据集,通过引入视觉问答(VQA)任务提供密集奖励信号,从而实现对细粒度视觉理解能力的有效冷启动训练。随后,我们提出 RewardMap,一种多阶段强化学习框架,旨在提升 MLLMs 的视觉理解与推理能力。RewardMap 采用两项关键设计:其一,提出一种难度感知的奖励机制,引入细节级奖励,直接缓解奖励稀疏问题,同时提供更丰富的监督信号;其二,设计一种多阶段强化学习方案,从简单感知任务逐步过渡到复杂推理任务,相比传统的监督微调(SFT),提供了更高效的冷启动策略。在 ReasonMap 与 ReasonMap-Plus 上的实验表明,RewardMap 的各个组件均能带来稳定性能提升,而其组合使用则取得最佳效果。此外,使用 RewardMap 训练的模型在涵盖空间推理、细粒度视觉推理以及超越交通图的通用任务的6个基准测试中,平均性能提升达3.47%,充分验证了其在增强视觉理解与推理能力方面的有效性。