Command Palette
Search for a command to run...
Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

要約
強化学習によるファインチューニング(RFT)は、教師ありファインチューニング(SFT)と強化学習(RL)の2段階フレームワークとして、大規模言語モデル(LLM)の推論能力向上において有望な成果を示している。しかし、RFTを大規模な動画言語モデル(LVLM)に拡張することは依然として困難である。本研究では、視覚認識と推論を別々のプロセスとしてモデル化することで、動画推論能力を向上させる新たなプロセス意識型動画RFTフレームワーク「VideoP2R」を提案する。SFT段階では、視覚認識と推論に特化した高品質なプロセス意識型チェーン・オブ・シンキング(CoT)データセット「VideoP2R-CoT-162K」を生成するための3段階パイプラインを開発した。RL段階では、認識と推論に対して別々の報酬を提供する新たなプロセス意識型グループ相対方策最適化(PA-GRPO)アルゴリズムを導入した。広範な実験の結果、VideoP2Rは7つの動画推論・理解ベンチマークのうち6つで最先端(SotA)の性能を達成した。アブレーションスタディにより、プロセス意識型モデリングおよびPA-GRPOの有効性が確認されるとともに、モデルの認識出力が下流の推論タスクにおいて情報的に十分であることも示された。