Videoprompter: ゼロショット動画理解のための基盤モデルのアンサンブル

ビジョン言語モデル(VLMs)は、視覚特徴とテキストベースのクラスラベル表現の間の類似度スコアを計算することで、クエリ動画を分類します。最近では、大規模言語モデル(LLMs)が使用されて、クラス名の説明力を高めることでテキストベースのクラスラベルを豊かにしています。しかし、これらの改善はテキストベースの分類器にのみ制限され、クエリの視覚特徴は考慮されていません。本論文では、事前学習済みの識別型VLMsと生成型ビデオからテキストへの変換モデルおよびテキストからテキストへの変換モデルを組み合わせたフレームワークを提案します。標準的なゼロショット設定に対して、以下の2つの重要な改良を行います。第一に、言語ガイドによる視覚特徴強化を提案し、クエリ動画をその説明形に変換するためにビデオからテキストへの変換モデルを使用します。得られた説明には、クエリ動画中存在的する物体やそれらの空間時間的相互作用などの重要な視覚的な手がかりが含まれます。これらの説明的手がかりは、VLMsに追加的な意味情報を提供し、ゼロショット性能を向上させます。第二に、LLMsに対する動画固有のプロンプトを提案し、クラスラベル表現を豊かにするためにより意味のある説明を生成します。具体的には、プロンプト技術を使用してクラス名のカテゴリ階層ツリーを作成し、追加的な視覚的手がかりのためにより高いレベルの動作コンテクストを提供します。我々は3つの異なるゼロショット設定におけるビデオ理解の効果性を示すため、1) ビデオアクション認識 2) ビデオからテキストへの検索およびテキストからビデオへの検索 3) 時間感応性のあるビデオタスクについて実験を行いました。複数のベンチマークと様々なVLMsでの一貫した改善により、提案したフレームワークの効果性が示されています。我々はコードを公開することとしています。