HyperAI

概要

私たちは、強化学習を活用してビジョン言語モデル（VLMs）の長時間ビデオに対する推論能力を向上させるフルスタックフレームワークを紹介します。このフレームワークでは、長時間ビデオの推論に特有の課題に対処するために、以下の3つの重要なコンポーネントを統合しています：(1) スポーツ、ゲーム、ブログなど多様な分野における高品質な推論アノテーションが付与された52,000件の長時間ビデオQAペアから構成される大規模データセット「LongVideo-Reason」；(2) 長時間ビデオ向けにチェーン・オブ・ソート（CoT-SFT）と強化学習（RL）による2段階トレーニングパイプライン；(3) シーケンス並列処理とvLLMベースのエンジンを組み合わせた長時間ビデオ用の強化学習トレーニング基盤「マルチモーダル強化学習シーケンス並列処理（MR-SP）」で、キャッシュされたビデオ埋め込みを使用して効率的なロールアウトとプリフィリングを行います。実験結果では、「LongVILA-R1-7B」は「VideoMME」などの長時間ビデオQAベンチマークにおいて優れた性能を示しました。また、「LongVideo-Reason-eval」ベンチマークにおいては、「Video-R1-7B」よりも優れ、「Gemini-1.5-Pro」と同等の性能を達成しています。特に、時系列推論、目的推論、空間推論、プロット推論などでその性能が確認されています。注目に値する点として、「MR-SP」システムは長時間ビデオ用の強化学習トレーニングで最大2.1倍の高速化を達成しています。「LongVILA-R1」は入力されるビデオフレーム数が増加するにつれて一貫した性能向上を見せています。これはVLMsにおける長時間ビデオ推論への確固たる一歩となるでしょう。さらに、当社は公開のためにトレーニングシステムをリリースしており、さまざまなモダリティ（ビデオ、テキスト、音声）、さまざまなモデル（VILAシリーズとQwenシリーズ）、さらには画像やビデオ生成モデルにも対応した強化学習トレーニングをサポートします。単一のA100ノード（8 GPU）では、「3,600フレーム/約256,000トークン」程度の長さを持つ1時間以上のビデオに対して強化学習トレーニングを行うことが可能です。

概要

Yukang Chen Wei Huang Baifeng Shi Qinghao Hu Hanrong Ye Ligeng Zhu Zhijian Liu Pavlo Molchanov Jan Kautz Xiaojuan Qi

概要

AIでAIを構築

HyperAI Newsletters

Yukang Chen Wei Huang Baifeng Shi Qinghao Hu Hanrong Ye Ligeng Zhu Zhijian Liu Pavlo Molchanov Jan Kautz Xiaojuan Qi

概要

AIでAIを構築

HyperAI Newsletters

Yukang Chen Wei Huang Baifeng Shi Qinghao Hu Hanrong Ye Ligeng Zhu Zhijian Liu Pavlo Molchanov Jan Kautz Xiaojuan Qi

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

長時間動画へのRLの拡張

Yukang Chen Wei Huang Baifeng Shi Qinghao Hu Hanrong Ye Ligeng Zhu Zhijian Liu Pavlo Molchanov Jan Kautz Xiaojuan Qi4 more

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

長時間動画へのRLの拡張

Yukang Chen Wei Huang Baifeng Shi Qinghao Hu Hanrong Ye Ligeng Zhu Zhijian Liu Pavlo Molchanov Jan Kautz Xiaojuan Qi4 more

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

長時間動画へのRLの拡張

Yukang Chen Wei Huang Baifeng Shi Qinghao Hu Hanrong Ye Ligeng Zhu Zhijian Liu Pavlo Molchanov Jan Kautz Xiaojuan Qi4 more

概要

AIでAIを構築

HyperAI Newsletters

Yukang Chen Wei Huang Baifeng Shi Qinghao Hu Hanrong Ye Ligeng Zhu Zhijian Liu Pavlo Molchanov Jan Kautz Xiaojuan Qi

Yukang Chen Wei Huang Baifeng Shi Qinghao Hu Hanrong Ye Ligeng Zhu Zhijian Liu Pavlo Molchanov Jan Kautz Xiaojuan Qi

Yukang Chen Wei Huang Baifeng Shi Qinghao Hu Hanrong Ye Ligeng Zhu Zhijian Liu Pavlo Molchanov Jan Kautz Xiaojuan Qi