
本論文では、画像と動画の理解に向けたより高度なマルチモーダル基盤モデルであるVideoLLaMA3を提案します。VideoLLaMA3の中心的な設計思想はビジョン中心主義(vision-centric)です。ビジョン中心主義の意味は二重であり、ビジョン中心的な学習パラダイムとビジョン中心的なフレームワーク設計があります。我々のビジョン中心的な学習パラダイムの重要な洞察は、高品質な画像-テキストデータが画像理解と動画理解の両方に不可欠であるということです。大量の動画-テキストデータセットを準備する代わりに、我々は大規模で高品質な画像-テキストデータセットの構築に焦点を当てています。VideoLLaMA3には4つの学習ステージがあります:1) ビジョン中心的なアライメントステージ:このステージでは、ビジョンエンコーダーとプロジェクターをウォームアップします。2) ビジョン言語事前学習ステージ:このステージでは、大規模な画像-テキストデータ(シーン画像、ドキュメント、チャートなど複数のタイプを含む)およびテキストのみのデータを使用して、ビジョンエンコーダー、プロジェクター、およびLLMを共同で調整します。3) 多タスクファインチューニングステージ:このステージでは、下流タスク向けの画像-テキストSFTデータと動画理解の基盤となる動画-テキストデータを取り入れます。4) 動画中心的なファインチューニング:このステージでは、モデルの動画理解能力をさらに向上させます。フレームワーク設計に関しては、画像内の細かい詳細をよりよく捉えるために、事前学習されたビジョンエンコーダーが固定数ではなく対応する数のビジョントークンに変換されるように適応されています。動画入力の場合には、類似度に基づいてビジョントークンの数を削減することで、動画表現がより正確かつコンパクトになります。これらのビジョン中心的な設計のおかげで、VideoLLaMA3は画像理解および動画理解ベンチマークにおいて優れた性能を達成しています。