摘要

通过强化学习（RL）训练大型多模态模型（LMMs）以原生调用视频处理工具（例如裁剪），已成为实现长视频理解的一条有前景的途径。然而，现有的原生RL方法按顺序分发工具调用（即每轮一次）：单个错误的裁剪会传播错误且缺乏同伴纠正，多轮工具调用会破坏上下文，且推理成本随轮数线性增长。我们引入了ParaVT，这是首个经过端到端RL训练的多agent并行视频工具调用框架，它在一轮中分发多个时间窗口的裁剪，从而提供更清晰的上下文和更好的容错能力。然而，将标准RL应用于ParaVT揭示了一个我们称为“工具先验悖论”（Tool Prior Paradox）的障碍：使工具探索成为可能的预训练工具先验也会破坏冷启动的结构格式，并在温度采样下暴露出跳过工具奖励捷径。在具有较弱先验的LMM上进行的跨模型对比支持了这一观点：格式保持稳定，但RL引发了零工具调用，表明先验强度是格式崩溃和工具探索的共同驱动因素。我们提出了PARA-GRPO（可解析性锚定与比率门控GRPO），它通过两种互补机制增强标准RL：（i）仅在最容易发生崩溃的结构token位置应用针对性的格式奖励；（ii）针对每个prompt的帧预算随机化，生成训练prompt，使得调用工具比跳过工具产生可测量的奖励信号。在六个长视频理解基准测试中，ParaVT相比Qwen3-VL基线平均提升了7.9%，而PARA-GRPO将训练期间的格式合规率从0.13提升至0.64。随着工具能力日益内化于现代LMMs中，RL必须与由此产生的先验相协作，而ParaVT为agent式RL提供了一般性方案。代码、数据和模型权重已公开可用。

源 PDF 查看代码