
要約
本研究では、ビデオや画像理解における Vision Language Models (VLMs) のトークン生成課題に対処する新しい手法である LLaMA-VID を提案します。現在の VLMs は、画像キャプショニングや視覚的な質問応答などのタスクに優れていますが、長時間のビデオを処理する際には過剰な視覚トークンにより計算負荷が高くなる問題があります。LLaMA-VID は、各フレームをコンテキストトークンとコンテンツトークンという2つの異なるトークンで表現することで、この問題を解決します。コンテキストトークンはユーザー入力に基づいて全体的な画像コンテキストをエンコードし、コンテンツトークンは各フレーム内の視覚的ヒントをカプセル化します。この二重トークン戦略により、長時間のビデオの負荷が大幅に軽減されつつも重要な情報を保つことができます。一般的に、LLaMA-VID は既存のフレームワークを強化し、1時間以上のビデオをサポートし、さらにコンテキストトークンによってその上限を引き上げます。本手法は、ほとんどのビデオまたは画像ベースのベンチマークにおいて従来の方法を超えることが証明されています。コードは以下の URL から入手可能です: https://github.com/dvlab-research/LLaMA-VID