2ヶ月前
Video-LLaVA: プロジェクション前のアライメントによる統一された視覚表現の学習
Bin Lin; Yang Ye; Bin Zhu; Jiaxi Cui; Munan Ning; Peng Jin; Li Yuan

要約
大規模視覚言語モデル(LVLM)は、視覚言語理解の様々な下流タスクの性能を向上させています。既存のアプローチでは、画像と動画を別々の特徴空間にエンコードし、その後、大規模言語モデル(LLM)への入力として使用します。しかし、画像と動画の統一されたトークン化が欠けているため、投影前の非対応が発生し、複数の貧弱な投影層から多様な相互作用を学習することが困難になります。本研究では、視覚表現を言語特徴空間に統合することで、基礎的なLLMを統一されたLVLMへと進化させることを目指しています。その結果、単純ながら堅牢なLVLMベースラインであるVideo-LLaVAを開発しました。このモデルは画像と動画が混在したデータセットから学習し、お互いに補完しながら性能を向上させます。Video-LLaVAは5つの画像質問回答データセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れた性能を達成しました。さらに、MSRVTT, MSVD, TGIF, ActivityNetにおいてそれぞれ5.8%, 9.9%, 18.6%, 10.1%高い性能を示しており、Video-ChatGPTを上回っています。特に広範な実験により、Video-LLaVAは統一された視覚表現の中で画像と動画の相互利益をもたらすことが示されており、画像専用または動画専用に設計されたモデルよりも優れています。本研究では、これらの成果を通じてLLMに対する多様な入力に関する有用な洞察を得ることを目指しています。コードアドレス: \href{https://github.com/PKU-YuanGroup/Video-LLaVA}