2ヶ月前

LinVT: 画像レベルの大規模言語モデルを動画理解に活用する

Lishuai Gao; Yujie Zhong; Yingsen Zeng; Haoxian Tan; Dengjie Li; Zheng Zhao
LinVT: 画像レベルの大規模言語モデルを動画理解に活用する
要約

大規模言語モデル(LLMs)は様々なタスクで広く使用されており、これによりビデオ向けのLLMベースのアシスタントを開発する動機が生まれました。新たに学習させるのではなく、既存の画像ベースのLLMをビデオデータで学習させることによって、任意の高性能な画像ベースのLLMをビデオ-LLMに変換するモジュールを提案します。画像-LLMがビデオ処理に適応できるようにするために、以下の2つの設計原則を導入します:元の視覚-言語対応関係を維持する線形変換と、冗長なビデオコンテンツから代表的な情報を凝縮する方法です。これらの原則に基づいて、プラグアンドプレイ型の線形ビデオトークナイザ(LinVT)を提案します。これにより、既存の画像ベースのLLMがビデオを理解できるようになります。私たちはLinVTを6つの最近の視覚系LLM(Aquila, Blip-3, InternVL2, Mipha, Molmo, Qwen2-VL)でベンチマークテストを行い、LinVTの高い互換性を示しました。LinVTに基づくLLMは様々なビデオベンチマークで最先端の性能を達成しており、多様なモーダルでのビデオ理解におけるLinVTの効果性が明確に示されています。

LinVT: 画像レベルの大規模言語モデルを動画理解に活用する | 最新論文 | HyperAI超神経