Command Palette

Search for a command to run...

5日前

Video-Thinker:強化学習を活用した「動画を用いた思考」の促進

Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

Video-Thinker:強化学習を活用した「動画を用いた思考」の促進

要約

近年、画像推論手法、特に「画像を用いた思考(Thinking with Images)」の進展により、マルチモーダル大規模言語モデル(MLLM)において顕著な成果が得られている。しかし、この動的推論アーキテクチャは、まだ動画推論タスクへの応用には至っていない。本論文では、MLLMが推論プロセス全体にわたり、自身の内在的な「グランドリング( grounding)」および「キャプション生成(captioning)」機能を自律的に活用することで、動画を用いた思考を可能にする「Video-Thinker」を提案する。この能力を発揮させるために、私たちは、思考の連鎖(chain-of-thought)推論シーケンス内での自律的ツール利用を特徴とする、構成されたデータセット「Video-Thinker-10K」を構築した。学習戦略は、まず推論形式の学習を目的とした教師あり微調整(SFT: Supervised Fine-Tuning)を実施し、その後、推論能力を強化するためのグループ相対方策最適化(GRPO: Group Relative Policy Optimization)を適用する。このアプローチにより、Video-ThinkerはMLLMが動画推論においてグランドリングおよびキャプション生成タスクを自律的に遂行できるようにし、外部ツールの構築や呼び出しを不要にする。広範な実験の結果、Video-Thinkerは、ドメイン内タスクおよび困難なドメイン外動画推論ベンチマーク(Video-Holmes、CG-Bench-Reasoning、VRBench)において、顕著な性能向上を達成した。特に、Video-Thinker-7Bは、Video-R1を含む既存のベースラインを大きく上回り、7B規模のMLLMにおいて最先端の性能を達成している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Video-Thinker:強化学習を活用した「動画を用いた思考」の促進 | 論文 | HyperAI超神経