Command Palette
Search for a command to run...
ParaVT:驯服代理视频强化学习中并行工具使用的工具先验悖论
ParaVT:驯服代理视频强化学习中并行工具使用的工具先验悖论
Zuhao Yang Kaichen Zhang Sudong Wang Keming Wu Zhongyu Yang Bo Li Xiaojuan Qi Shijian Lu Xingxuan Li Lidong Bing
摘要
通过强化学习(RL)训练大型多模态模型(LMMs)以原生调用视频处理工具(例如裁剪),已成为实现长视频理解的一条有前景的途径。然而,现有的原生RL方法按顺序分发工具调用(即每轮一次):单个错误的裁剪会传播错误且缺乏同伴纠正,多轮工具调用会破坏上下文,且推理成本随轮数线性增长。我们引入了ParaVT,这是首个经过端到端RL训练的多agent并行视频工具调用框架,它在一轮中分发多个时间窗口的裁剪,从而提供更清晰的上下文和更好的容错能力。然而,将标准RL应用于ParaVT揭示了一个我们称为“工具先验悖论”(Tool Prior Paradox)的障碍:使工具探索成为可能的预训练工具先验也会破坏冷启动的结构格式,并在温度采样下暴露出跳过工具奖励捷径。在具有较弱先验的LMM上进行的跨模型对比支持了这一观点:格式保持稳定,但RL引发了零工具调用,表明先验强度是格式崩溃和工具探索的共同驱动因素。我们提出了PARA-GRPO(可解析性锚定与比率门控GRPO),它通过两种互补机制增强标准RL:(i)仅在最容易发生崩溃的结构token位置应用针对性的格式奖励;(ii)针对每个prompt的帧预算随机化,生成训练prompt,使得调用工具比跳过工具产生可测量的奖励信号。在六个长视频理解基准测试中,ParaVT相比Qwen3-VL基线平均提升了7.9%,而PARA-GRPO将训练期间的格式合规率从0.13提升至0.64。随着工具能力日益内化于现代LMMs中,RL必须与由此产生的先验相协作,而ParaVT为agent式RL提供了一般性方案。代码、数据和模型权重已公开可用。