VideoGPT+: 画像およびビデオエンコーダの統合による高度なビデオ理解

言語モデルの進歩を基盤として、大規模マルチモーダルモデル(LMMs)はビデオ理解において著しい改善をもたらしました。現在のビデオLMMsは高度な大規模言語モデル(LLMs)を利用していますが、視覚入力の処理には画像エンコーダまたはビデオエンコーダに依存しており、それぞれに固有の制限があります。画像エンコーダはフレームシーケンスから豊かな空間詳細を捉えることに優れていますが、複雑なアクションシーケンスを持つビデオにおいて重要な明示的な時間的コンテキストを欠いています。一方、ビデオエンコーダは時間的コンテキストを提供しますが、計算リソースの制約により低解像度で疎なフレームのみを処理することが多く、これによりコンテキストと空間理解が低下する傾向があります。この課題に対応するため、私たちはVideoGPT+を提案します。このモデルは画像エンコーダ(詳細な空間理解のために)とビデオエンコーダ(全体的な時間的コンテキストモデリングのために)の補完的な利点を組み合わせています。VideoGPT+はビデオを小さなセグメントに分割し、両方のエンコーダから抽出された特徴量に対して適応プーリング戦略を適用することでビデオを処理します。当社のアーキテクチャはVCGBench、MVBenchおよびゼロショット質問応答などの複数のビデオベンチマークで性能向上を示しています。さらに、モデル性能向上のために112,000件のビデオ指示セットを開発しました。これは新規の半自動アノテーションパイプラインを使用して作成されました。また、既存のLMMsを包括的に評価するためにVCGBench-Diverseを提示します。このベンチマークはライフスタイル、スポーツ、科学、ゲーム、監視など18種類の広範なビデオカテゴリをカバーしており、4,354件の質問回答ペアによって既存LMMsの一連の密集したビデオキャプショニング、空間および時間的理解、複雑な推論における汎化能力を評価します。これにより多様なビデオタイプとダイナミクスに対する包括的な評価が保証されます。コード: https://github.com/mbzuai-oryx/VideoGPT-plus.