VideoLLaMA 2: 動画-LLMにおける空間時間モデリングと音声理解の進歩

本論文では、ビデオ大規模言語モデル(Video-LLMs)の新バージョンであるVideoLLaMA 2を紹介します。このモデルは、ビデオや音声に関連するタスクにおける空間時間モデリングと音声理解を強化することを目的として設計されています。前バージョンのVideoLLaMAに引き続き、VideoLLaMA 2には独自開発された空間時間畳み込み(Spatial-Temporal Convolution: STC)接続部が組み込まれており、ビデオデータの複雑な空間的および時間的な動態を効果的に捉えます。さらに、共同学習を通じて音声ブランチをモデルに統合することで、音声情報をシームレスに取り入れた多様な理解能力を向上させています。複数選択肢付きビデオ質問応答(Multiple Choice Video Question Answering: MC-VQA)、オープンエンド型ビデオ質問応答(Open-Ended Video Question Answering: OE-VQA)、およびビデオキャプショニング(Video Captioning: VC)タスクにおける包括的な評価結果は、VideoLLaMA 2がオープンソースモデルの中で一貫して競争力のある結果を達成していることを示しています。また、いくつかのベンチマークにおいては特定のプロプライエタリモデルにも迫る性能を発揮しています。さらに、音声のみおよび音声と映像の質問応答(Audio-Only QA & Open-Ended Audio-Visual QA: AQA & OE-AVQA)ベンチマークでも既存のモデルに対して合理的な改善が見られました。これらの進歩は、VideoLLaMA 2が多様な理解能力において優れた性能を有し、知能型ビデオ分析システムの新しい基準を設定していることを強調しています。すべてのモデルは公開されており、さらなる研究を促進するために利用可能です。