LLaVA-Mini: 単一のビジョントークンを使用した効率的な画像と動画の大規模マルチモーダルモデル

リアルタイムの大規模マルチモーダルモデル(LMM)であるGPT-4oの登場は、効率的なLMMへの大きな関心を喚起しました。LMMフレームワークは通常、視覚入力をビジョントークン(連続表現)にエンコードし、これらとテキスト指示を大規模言語モデル(LLM)のコンテクストに統合します。大規模なパラメータと多数のコンテクストトークン(主にビジョントークン)が大幅な計算負荷を引き起こすためです。これまでの効率的なLMMに関する取り組みは、常にLLMのバックボーンをより小さなモデルで置き換えることに焦点を当てており、重要なトークン数の問題を見落としていました。本論文では、最小限のビジョントークンを持つ効率的なLMMであるLLaVA-Miniを紹介します。ビジョントークンの高い圧縮率を達成しながら視覚情報を保つために、まずLMMがどのようにビジョントークンを理解するかを分析しました。その結果、大部分のビジョントークンがLLMバックボーンの初期層で主に役割を果たし、ここで視覚情報をテキストトークンに融合することが明らかになりました。この知見に基づいて、LLaVA-Miniはモダリティプリフュージョンを導入し、視覚情報を事前にテキストトークンに融合することで、LLMバックボーンに入力されるビジョントークンを1つのトークンに極めて圧縮することを可能にしました。LLaVA-Miniは画像、高解像度画像、およびビデオの理解を効率的にサポートする統合された大規模マルチモーダルモデルです。11つの画像ベースベンチマークと7つのビデオベースベンチマークでの実験結果から、LLaVA-Miniは576個ではなく1個のビジョントークンを使用してLLaVA-v1.5を超える性能を示しています。効率性分析では、LLaVA-MiniがFLOPsを77%削減できること、40ミリ秒以内で低遅延応答を提供できること、24GBメモリを持つGPUハードウェア上で1万フレーム以上のビデオ処理が可能であることが示されています。