PPLLaVA: プロンプトガイダンスによる多様なビデオシーケンス理解

過去の1年間で、ビデオベースの大規模言語モデル(LLM)は著しい進歩を遂げました。しかし、短いビデオと長いビデオの理解を統一的に処理するモデルの開発という課題は依然として解決されていません。既存のほとんどのビデオLLMは長時間のビデオを処理できず、一方で長時間のビデオに特化した手法は短いビデオや画像に対して効果が低い傾向にあります。本論文では、この問題の核心をビデオ内の冗長なコンテンツにあると捉えています。これを解決するために、トークン圧縮と指示認識型視覚特徴量集約を同時に実現する新しいプーリング戦略を提案します。当該モデルは「プロンプトガイド型プーリングLLaVA」(PPLLaVA)と名付けられました。具体的には、PPLLaVAは以下の3つの主要コンポーネントから構成されています:1. CLIPに基づく視覚プロンプトアライメント:ユーザーの指示に関連する視覚情報を抽出します。2. プロンプトガイド型プーリング:畳み込みスタイルのプーリングを使用して視覚シーケンスを任意のスケールに圧縮します。3. クリップコンテキスト拡張:視覚対話で一般的な長いプロンプトに対応するように設計されています。さらに、私たちのコードベースには最新のビデオ直接嗜好最適化(DPO)と視覚インターリーブトレーニングも統合されています。広範な実験により、当該モデルの性能が検証されました。優れたスループットと1024個の視覚コンテキストのみで、PPLLaVAは画像ベンチマークにおいて他のビデオLLMよりも良い結果を示し、さまざまなビデオベンチマークでも最先端の性能を達成しています。キャプション生成から選択肢問題まで幅広いタスクにおいて優れた成績を収め、数秒から数時間までの様々な長さのビデオを処理することができます。コードは以下のURLから入手可能です:https://github.com/farewellthree/PPLLaVA