Command Palette
Search for a command to run...
Jiaqi Liu Kaiwen Xiong Peng Xia Yiyang Zhou Haonian Ji Lu Feng Siwei Han Mingyu Ding Huaxiu Yao

摘要
视觉-语言代理在多种多模态推理任务中取得了显著进展;然而,其学习过程仍受限于人工标注监督的局限性。近期的自奖励(self-rewarding)方法试图通过让模型充当自身评判者或奖励提供者来突破这一瓶颈。然而,纯文本形式的自评估难以验证复杂的视觉推理步骤,且常出现评估幻觉(evaluation hallucinations)问题。为应对这些挑战,受工具融合推理(tool-integrated reasoning)最新进展的启发,我们提出 Agent0-VL——一种具备持续进化能力的视觉-语言代理,通过融合工具的推理机制实现持续优化。Agent0-VL不仅将工具使用融入推理过程,还将其扩展至自我评估与自我修复环节,使模型能够基于证据进行内省、验证与推理修正。该模型在单一视觉-语言大模型(LVLM)中统一了两种协同作用的角色:一是执行多轮工具融合推理的“求解器”(Solver),二是通过工具驱动的批判性分析生成结构化反馈与细粒度自奖励的“验证器”(Verifier)。这两个角色通过“自我演化推理循环”(Self-Evolving Reasoning Cycle)相互协作,借助基于工具的验证机制与强化学习,协同对齐推理分布与评估分布,从而实现稳定可靠的自我提升。得益于这一无需外部奖励信号的零外部奖励演化机制,Agent0-VL能够在无需任何人工标注或外部奖励模型的前提下,实现推理与验证行为的自主对齐与持续改进。在几何问题求解与视觉科学分析任务上的实验表明,Agent0-VL相较于基础模型实现了12.5%的性能提升。相关代码已开源,地址为:https://github.com/aiming-lab/Agent0/Agent0-VL。