Command Palette

Search for a command to run...

2 个月前

工具增强的视觉感知

Zetong Zhou Dongping Chen Zixian Ma Zhihan Hu Mingyang Fu Sinan Wang Yao Wan Zhou Zhao Ranjay Krishna

工具增强的视觉感知

摘要

视觉推理是人类智能的核心组成部分,涵盖了复杂的感知与逻辑处理过程,对于解决各类视觉问题至关重要。尽管计算机视觉领域取得了显著进展,涌现出多种强大的感知任务模型,但如何将这些模型应用于通用视觉推理仍面临巨大挑战。以往研究显示,通过监督微调将视觉模型与大语言模型(LLM)结合可提升性能,但该方法存在诸多关键局限,包括数据生成成本高昂、依赖精细的数据筛选,以及泛化能力不足等问题。为解决上述问题,我们提出ReVPT,一种基于强化学习(RL)的新型方法,旨在增强多模态大语言模型在视觉工具使用与推理方面的能力。我们设计了一种基于GRPO的新型强化学习算法,用于训练模型有效运用一套四类视觉工具进行推理。通过大量实验验证,我们的方法在多个以感知任务为主的基准测试中达到当前最优性能,涵盖SAT、CV-Bench、BLINK和MMStar等。在各项指标上,显著优于传统的监督微调与基于文本的强化学习微调基线。尤为突出的是,ReVPT-3B与ReVPT-7B在CV-Bench基准上分别超越指令微调模型9.03%和9.44%。最后,我们通过系统的消融实验,为基于强化学习的视觉工具使用提供了新的洞见。相关代码已开源,地址为:https://github.com/ls-kelvin/REVPT。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供