摘要

视觉推理是人类智能的核心组成部分，涵盖了复杂的感知与逻辑处理过程，对于解决各类视觉问题至关重要。尽管计算机视觉领域取得了显著进展，涌现出多种强大的感知任务模型，但如何将这些模型应用于通用视觉推理仍面临巨大挑战。以往研究显示，通过监督微调将视觉模型与大语言模型（LLM）结合可提升性能，但该方法存在诸多关键局限，包括数据生成成本高昂、依赖精细的数据筛选，以及泛化能力不足等问题。为解决上述问题，我们提出ReVPT，一种基于强化学习（RL）的新型方法，旨在增强多模态大语言模型在视觉工具使用与推理方面的能力。我们设计了一种基于GRPO的新型强化学习算法，用于训练模型有效运用一套四类视觉工具进行推理。通过大量实验验证，我们的方法在多个以感知任务为主的基准测试中达到当前最优性能，涵盖SAT、CV-Bench、BLINK和MMStar等。在各项指标上，显著优于传统的监督微调与基于文本的强化学习微调基线。尤为突出的是，ReVPT-3B与ReVPT-7B在CV-Bench基准上分别超越指令微调模型9.03%和9.44%。最后，我们通过系统的消融实验，为基于强化学习的视觉工具使用提供了新的洞见。相关代码已开源，地址为：https://github.com/ls-kelvin/REVPT。

源 PDF 查看代码