Command Palette
Search for a command to run...
Zetong Zhou Dongping Chen Zixian Ma Zhihan Hu Mingyang Fu Sinan Wang Yao Wan Zhou Zhao Ranjay Krishna

摘要
视觉推理是人类智能的核心组成部分,涵盖了复杂的感知与逻辑处理过程,对于解决各类视觉问题至关重要。尽管计算机视觉领域取得了显著进展,涌现出多种强大的感知任务模型,但如何将这些模型应用于通用视觉推理仍面临巨大挑战。以往研究显示,通过监督微调将视觉模型与大语言模型(LLM)结合可提升性能,但该方法存在诸多关键局限,包括数据生成成本高昂、依赖精细的数据筛选,以及泛化能力不足等问题。为解决上述问题,我们提出ReVPT,一种基于强化学习(RL)的新型方法,旨在增强多模态大语言模型在视觉工具使用与推理方面的能力。我们设计了一种基于GRPO的新型强化学习算法,用于训练模型有效运用一套四类视觉工具进行推理。通过大量实验验证,我们的方法在多个以感知任务为主的基准测试中达到当前最优性能,涵盖SAT、CV-Bench、BLINK和MMStar等。在各项指标上,显著优于传统的监督微调与基于文本的强化学习微调基线。尤为突出的是,ReVPT-3B与ReVPT-7B在CV-Bench基准上分别超越指令微调模型9.03%和9.44%。最后,我们通过系统的消融实验,为基于强化学习的视觉工具使用提供了新的洞见。相关代码已开源,地址为:https://github.com/ls-kelvin/REVPT。