HyperAI超神经

UniVG-R1:基于强化学习的推理引导通用视觉定位

Bai, Sule ; Li, Mingxing ; Liu, Yong ; Tang, Jing ; Zhang, Haoji ; Sun, Lei ; Chu, Xiangxiang ; Tang, Yansong
发布日期: 5/22/2025
UniVG-R1:基于强化学习的推理引导通用视觉定位
摘要

传统的视觉定位方法主要关注单图像场景中的简单文本引用。然而,将这些方法扩展到涉及隐式和复杂指令的真实世界场景,尤其是在结合多幅图像时,面临着重大挑战,这主要是由于在多样化的多模态上下文中缺乏高级推理能力。在这项工作中,我们旨在解决更为实际的普遍视觉定位任务,并提出了一种名为 UniVG-R1 的推理引导多模态大语言模型(MLLM),用于普遍视觉定位。该模型通过强化学习(RL)与冷启动数据相结合的方式增强了推理能力。具体而言,我们首先构建了一个高质量的思维链(Chain-of-Thought, CoT)定位数据集,该数据集标注了详细的推理链,通过监督微调引导模型走向正确的推理路径。随后,我们进行了基于规则的强化学习,以鼓励模型识别正确的推理链,从而激励其推理能力。此外,我们发现随着 RL 训练的进行,容易样本的普遍存在导致了难度偏差问题,并提出了一个难度感知权重调整策略以进一步提升性能。实验结果表明了 UniVG-R1 的有效性,在 MIG-Bench 上实现了比前一方法提高 9.1% 的最新性能。此外,我们的模型表现出强大的泛化能力,在四个图像和视频推理定位基准测试中平均零样本性能提升了 23.4%。项目页面可访问:https://amap-ml.github.io/UniVG-R1-page/。