Command Palette

Search for a command to run...

6日前

VIDEOP2R:認知から推論への動画理解

Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

VIDEOP2R:認知から推論への動画理解

要約

強化学習によるファインチューニング(RFT)は、教師ありファインチューニング(SFT)と強化学習(RL)の2段階フレームワークとして、大規模言語モデル(LLM)の推論能力向上において有望な成果を示している。しかし、RFTを大規模な動画言語モデル(LVLM)に拡張することは依然として困難である。本研究では、視覚認識と推論を別々のプロセスとしてモデル化することで、動画推論能力を向上させる新たなプロセス意識型動画RFTフレームワーク「VideoP2R」を提案する。SFT段階では、視覚認識と推論に特化した高品質なプロセス意識型チェーン・オブ・シンキング(CoT)データセット「VideoP2R-CoT-162K」を生成するための3段階パイプラインを開発した。RL段階では、認識と推論に対して別々の報酬を提供する新たなプロセス意識型グループ相対方策最適化(PA-GRPO)アルゴリズムを導入した。広範な実験の結果、VideoP2Rは7つの動画推論・理解ベンチマークのうち6つで最先端(SotA)の性能を達成した。アブレーションスタディにより、プロセス意識型モデリングおよびPA-GRPOの有効性が確認されるとともに、モデルの認識出力が下流の推論タスクにおいて情報的に十分であることも示された。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VIDEOP2R:認知から推論への動画理解 | 論文 | HyperAI超神経