Command Palette
Search for a command to run...
Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

摘要
强化学习微调(Reinforcement Fine-Tuning, RFT)是一种包含监督微调(Supervised Fine-Tuning, SFT)与强化学习(Reinforcement Learning, RL)两个阶段的两阶段框架,在提升大语言模型(Large Language Models, LLMs)推理能力方面展现出显著成效。然而,将RFT扩展至大规模视频语言模型(Large Video Language Models, LVLMs)仍面临诸多挑战。为此,我们提出VideoP2R——一种新颖的、面向过程的视频强化学习微调框架,通过将感知与推理建模为两个独立的过程,从而增强视频推理能力。在SFT阶段,我们设计了一套三步式流水线,构建了高质量、面向过程的思维链(Chain-of-Thought, CoT)数据集VideoP2R-CoT-162K,专门用于支持感知与推理任务。在RL阶段,我们提出一种新型的面向过程的组相对策略优化算法(Process-Aware Group Relative Policy Optimization, PA-GRPO),能够分别为感知和推理阶段提供独立的奖励信号。大量实验表明,VideoP2R在七个视频推理与理解基准测试中的六个上达到了当前最优(State-of-the-Art, SotA)性能。消融实验进一步验证了我们所提出的面向过程建模机制以及PA-GRPO算法的有效性,并证明模型的感知输出已具备充分的信息量,足以支撑下游推理任务的高质量执行。