4ヶ月前

VideoLLaMA 3: 画像と動画理解のためのフロンティア多モーダル基盤モデル

Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
VideoLLaMA 3: 画像と動画理解のためのフロンティア多モーダル基盤モデル
要約

本論文では、画像と動画の理解に向けたより高度なマルチモーダル基盤モデルであるVideoLLaMA3を提案します。VideoLLaMA3の中心的な設計思想はビジョン中心主義(vision-centric)です。ビジョン中心主義の意味は二重であり、ビジョン中心的な学習パラダイムとビジョン中心的なフレームワーク設計があります。我々のビジョン中心的な学習パラダイムの重要な洞察は、高品質な画像-テキストデータが画像理解と動画理解の両方に不可欠であるということです。大量の動画-テキストデータセットを準備する代わりに、我々は大規模で高品質な画像-テキストデータセットの構築に焦点を当てています。VideoLLaMA3には4つの学習ステージがあります:1) ビジョン中心的なアライメントステージ:このステージでは、ビジョンエンコーダーとプロジェクターをウォームアップします。2) ビジョン言語事前学習ステージ:このステージでは、大規模な画像-テキストデータ(シーン画像、ドキュメント、チャートなど複数のタイプを含む)およびテキストのみのデータを使用して、ビジョンエンコーダー、プロジェクター、およびLLMを共同で調整します。3) 多タスクファインチューニングステージ:このステージでは、下流タスク向けの画像-テキストSFTデータと動画理解の基盤となる動画-テキストデータを取り入れます。4) 動画中心的なファインチューニング:このステージでは、モデルの動画理解能力をさらに向上させます。フレームワーク設計に関しては、画像内の細かい詳細をよりよく捉えるために、事前学習されたビジョンエンコーダーが固定数ではなく対応する数のビジョントークンに変換されるように適応されています。動画入力の場合には、類似度に基づいてビジョントークンの数を削減することで、動画表現がより正確かつコンパクトになります。これらのビジョン中心的な設計のおかげで、VideoLLaMA3は画像理解および動画理解ベンチマークにおいて優れた性能を達成しています。