HyperAI超神经

一网打尽:视觉三重统一强化学习

Yan Ma, Linge Du, Xuyang Shen, Shaoxiang Chen, Pengfei Li, Qibing Ren, Lizhuang Ma, Yuchao Dai, Pengfei Liu, Junjie Yan
发布日期: 5/26/2025
一网打尽:视觉三重统一强化学习
摘要

强化学习(RL)显著提升了视觉-语言模型(VLMs)的推理能力。然而,强化学习在推理任务之外的应用仍 largely unexplored(很大程度上未被探索),尤其是在以感知为中心的任务中,如目标检测和定位。我们提出了一种名为 V-Triune 的视觉三重统一强化学习系统,该系统使 VLMs 能够在一个单一的训练管道中同时学习视觉推理和感知任务。V-Triune 包含三个互补组件:样本级数据格式化(用于统一多样化的任务输入)、验证器级奖励计算(通过专门的验证器提供定制奖励)以及源级指标监控(用于诊断数据源层面的问题)。我们进一步引入了一种新型的动态交并比(IoU)奖励机制,为 V-Triune 处理的感知任务提供了自适应、渐进且明确的反馈。我们的方法在现有的强化学习训练框架中实现,使用了开源的 70 亿参数和 320 亿参数主干模型。由此产生的模型被称为 Orsta(One RL to See Them All,一个强化学习通观全局),在推理和感知任务上均表现出一致的改进。这种广泛的能力主要得益于其在多样化数据集上的训练,该数据集涵盖了四个代表性的视觉推理任务(数学、谜题、图表和科学)以及四个视觉感知任务(定位、检测、计数和光学字符识别)。随后,Orsta 在 MEGA-Bench Core 上取得了显著的进步,其不同版本的 70 亿参数和 320 亿参数模型性能提升范围从 +2.1 到令人印象深刻的 +14.1,并且这些性能优势扩展到了广泛的下游任务。这些结果突显了我们统一强化学习方法对 VLMs 的有效性和可扩展性。V-Triune 系统及 Orsta 模型已公开发布于 https://github.com/MiniMax-AI。