2ヶ月前
画像グリッドはビデオに匹敵する価値を持つ:VLMを用いたゼロショットビデオ質問応答
Wonkyun Kim; Changin Choi; Wonseok Lee; Wonjong Rhee

要約
最近の大型言語モデル(LLMs)の洗練された推論能力に刺激を受け、ビデオモダリティを橋渡すための様々な戦略が考案されてきました。その中でも特に注目を集めている戦略は、ビデオデータを用いて学習可能なインターフェースを訓練し、高度な視覚エンコーダとLLMsを接続するビデオ言語モデル(VideoLMs)です。最近では、ビデオモダリティの橋渡しのために、複数の段階で既存の基盤モデル(例えば、VideoLMsとLLMs)を使用する代替戦略も現れています。本研究では、単一の視覚言語モデル(VLM)のみを使用するシンプルながら革新的な戦略を提案します。私たちの出発点は、ビデオが時間情報とともに連携した一連の画像やフレームから構成されているという基本的な洞察です。ビデオ理解の本質は、各フレームの空間詳細とともに時間的な側面を巧みに管理することにあります。まず、複数のフレームをグリッドレイアウトに配置することで、ビデオを単一の合成画像に変換します。この結果得られる単一画像は「イメージグリッド」と呼ばれます。この形式は、単独の画像としての外観を維持しながら、グリッド構造内に効果的に時間情報を保持します。したがって、イメージグリッドアプローチは直接単一の高性能VLMを適用でき、ビデオデータでの訓練を必要としません。我々が10つのゼロショットビデオ質問応答ベンチマーク(5つのオープンエンド型および5つの選択肢型ベンチマーク)に対して行った広範な実験分析によると、提案されたイメージグリッド視覚言語モデル(IG-VLM)は10ベンチマーク中の9つにおいて既存手法を超えることが示されました。