VerIPO:通过验证者引导的迭代策略优化培养视频大模型的长程推理能力

将强化学习(Reinforcement Learning, RL)应用于视频大语言模型(Video-LLMs)在复杂视频推理方面展现出显著潜力。然而,流行的强化微调(Reinforcement Fine-Tuning, RFT)方法,如基于结果的组相对策略优化(Group Relative Policy Optimization, GRPO),受到数据准备瓶颈的限制(例如,噪声或高成本),并且在生成长链思考(Chain-of-Thoughts, CoTs)和下游性能方面表现出不稳定改进。为了解决这些局限性,我们提出了一种由验证器引导的迭代策略优化方法——VerIPO,旨在逐步提升视频大语言模型生成深度、长期推理链的能力。该方法的核心组件是Rollout感知验证器(Rollout-Aware Verifier),位于GRPO和直接偏好优化(Direct Preference Optimization, DPO)训练阶段之间,形成一个GRPO-验证器-DPO训练循环。此验证器利用小型语言模型作为评估者来判断rollouts的推理逻辑,从而构建高质量的对比数据,包括反思性和上下文一致性的CoTs。这些精心挑选的偏好样本推动了高效的DPO阶段(比GRPO快7倍),显著提升了推理链的质量,特别是在长度和上下文一致性方面。这一训练循环结合了GRPO的大范围搜索和DPO的目标优化的优势。实验结果表明:1) 与标准GRPO变体相比,我们的方法实现了显著更快且更有效的优化,表现出更优的性能;2) 我们训练的模型超越了大规模指令调优的Video-LLMs直接推理能力,在各种视频推理任务中生成了长且上下文一致的CoTs;3) 经过一次迭代后的模型优于强大的多模态语言模型(如Kimi-VL)和长推理模型(如Video-R1),突显了其有效性和稳定性。