HyperAIHyperAI

Command Palette

Search for a command to run...

長時間動画へのRLの拡張

概要

私たちは、強化学習を活用してビジョン言語モデル(VLMs)の長時間ビデオに対する推論能力を向上させるフルスタックフレームワークを紹介します。このフレームワークでは、長時間ビデオの推論に特有の課題に対処するために、以下の3つの重要なコンポーネントを統合しています:(1) スポーツ、ゲーム、ブログなど多様な分野における高品質な推論アノテーションが付与された52,000件の長時間ビデオQAペアから構成される大規模データセット「LongVideo-Reason」;(2) 長時間ビデオ向けにチェーン・オブ・ソート(CoT-SFT)と強化学習(RL)による2段階トレーニングパイプライン;(3) シーケンス並列処理とvLLMベースのエンジンを組み合わせた長時間ビデオ用の強化学習トレーニング基盤「マルチモーダル強化学習シーケンス並列処理(MR-SP)」で、キャッシュされたビデオ埋め込みを使用して効率的なロールアウトとプリフィリングを行います。実験結果では、「LongVILA-R1-7B」は「VideoMME」などの長時間ビデオQAベンチマークにおいて優れた性能を示しました。また、「LongVideo-Reason-eval」ベンチマークにおいては、「Video-R1-7B」よりも優れ、「Gemini-1.5-Pro」と同等の性能を達成しています。特に、時系列推論、目的推論、空間推論、プロット推論などでその性能が確認されています。注目に値する点として、「MR-SP」システムは長時間ビデオ用の強化学習トレーニングで最大2.1倍の高速化を達成しています。「LongVILA-R1」は入力されるビデオフレーム数が増加するにつれて一貫した性能向上を見せています。これはVLMsにおける長時間ビデオ推論への確固たる一歩となるでしょう。さらに、当社は公開のためにトレーニングシステムをリリースしており、さまざまなモダリティ(ビデオ、テキスト、音声)、さまざまなモデル(VILAシリーズとQwenシリーズ)、さらには画像やビデオ生成モデルにも対応した強化学習トレーニングをサポートします。単一のA100ノード(8 GPU)では、「3,600フレーム/約256,000トークン」程度の長さを持つ1時間以上のビデオに対して強化学習トレーニングを行うことが可能です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
長時間動画へのRLの拡張 | 記事 | HyperAI超神経