HyperAI超神经
7 days ago

开放视觉推理器:将语言认知行为迁移至视觉推理

Yana Wei, Liang Zhao, Jianjian Sun, Kangheng Lin, Jisheng Yin, Jingcheng Hu, Yinmin Zhang, En Yu, Haoran Lv, Zejia Weng, Jia Wang, Chunrui Han, Yuang Peng, Qi Han, Zheng Ge, Xiangyu Zhang, Daxin Jiang, Vishal M. Patel
开放视觉推理器:将语言认知行为迁移至视觉推理
摘要

大型语言模型(LLMs)的卓越推理能力源于通过可验证奖励进行强化而产生的认知行为。本研究探讨了如何将这一原则应用于多模态大型语言模型(MLLMs),以解锁高级视觉推理能力。我们提出了一种基于Qwen2.5-VL-7B的两阶段范式:首先进行大规模的语言冷启动微调,然后进行近1000步的多模态强化学习(RL),其规模超过了所有先前的开源尝试。这项开创性工作揭示了三个基本见解:1) 由于语言心理图像的存在,行为转移在冷启动初期就意外地出现;2) 冷启动广泛记忆视觉行为,而强化学习则关键在于识别并放大有效模式;3) 转移策略性地倾向于高效用的行为,如视觉反思。我们的最终模型Open-Vision-Reasoner(OVR)在一系列推理基准测试中取得了最先进的性能,包括在MATH500上达到95.3%,在MathVision上达到51.8%,以及在MathVerse上达到54.6%。我们发布了该模型、数据及训练动态,以促进更具能力、行为对齐的多模态推理器的发展。