HyperAI超神经

VLM-R1:一种稳定且可泛化的R1风格大型视觉-语言模型

Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao
发布日期: 4/16/2025
VLM-R1:一种稳定且可泛化的R1风格大型视觉-语言模型
摘要

近日,DeepSeek R1 展示了通过一种简单而有效的方法,强化学习(RL)可以显著提升大语言模型(LLMs)的推理能力。R1 的核心在于其基于规则的奖励机制,该机制利用具有确定性真实答案的任务来实现精确且稳定的奖励计算。在视觉领域,我们同样观察到,许多视觉理解任务本身就具备明确的真实标注。这一特性使它们与基于规则的奖励机制天然兼容。受此启发,我们研究了将 R1 风格的强化学习扩展到视觉-语言模型(VLMs),旨在增强这些模型的视觉推理能力。为此,我们开发了 VLM-R1,这是一个专门设计用于利用 RL 提升 VLMs 在通用视觉-语言任务中表现的框架。通过该框架,我们进一步探讨了将 RL 应用于视觉领域的可行性。实验结果表明,基于 RL 的模型不仅在视觉理解任务中表现出竞争力,而且在泛化能力上超过了监督微调(SFT)。此外,我们进行了全面的消融研究,揭示了一系列值得注意的见解,包括目标检测中的奖励劫持现象、"OD 啊哈时刻" 的出现、训练数据质量的影响以及不同模型规模下 RL 的扩展行为。通过这些分析,我们希望加深对强化学习如何提升视觉-语言模型能力的理解,并期望我们的发现和开源贡献能够支持视觉-语言 RL 社区的持续进步。我们的代码和模型可在 https://github.com/om-ai-lab/VLM-R1 获取。