Command Palette

Search for a command to run...

2 天前

OpenMMReasoner:以开放与通用的方案拓展多模态推理的前沿

Kaichen Zhang Keming Wu Zuhao Yang Kairui Hu Bin Wang Ziwei Liu Xingxuan Li Lidong Bing

OpenMMReasoner:以开放与通用的方案拓展多模态推理的前沿

摘要

大型推理模型(Large Reasoning Models)的最新进展,激发了将此类能力扩展至多模态领域的强烈兴趣。然而,尽管视觉推理方面取得了显著进步,但由于缺乏透明且可复现的数据策展(Data Curation)与训练策略,规模化研究仍面临主要障碍。在本文中,我们推出了 OpenMMReasoner,这是一套涵盖监督微调(SFT)与强化学习(RL)的完全透明的两阶段多模态推理训练方案。在 SFT 阶段,我们构建了一个包含 87.4 万样本的冷启动数据集(Cold-start Dataset),并辅以严格的逐步验证(Step-by-step Validation)机制,为推理能力奠定了坚实基础。随后的 RL 阶段利用覆盖多种领域的 7.4 万样本数据集,进一步强化并稳定了这些能力,从而实现更具鲁棒性且高效的学习过程。广泛的评估结果表明,我们的训练方案不仅超越了强有力的基线模型,还凸显了数据质量与训练设计在塑造多模态推理性能中的关键作用。值得注意的是,在九项多模态推理基准测试中,我们的方法相较于 Qwen2.5-VL-7B-Instruct 基线实现了 11.6% 的性能提升,为未来的大规模多模态推理研究建立了坚实的实证基础。我们已在 https://github.com/EvolvingLMMs-Lab/OpenMMReasoner 开源了所有的代码、流程及数据。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供