4ヶ月前

VLM支援による行動理解のためのビデオトランスフォーマーの強化

Lu, Hui ; Jian, Hu ; Poppe, Ronald ; Salah, Albert Ali
VLM支援による行動理解のためのビデオトランスフォーマーの強化
要約

空間時間的なビデオ埋め込みを抽出する能力により、ビジョントランスフォーマー(ViTs)は現在、ビデオアクション理解において最高の性能を発揮するモデルとなっています。しかし、ドメインやデータセット間での汎化性能は若干制限されています。一方、視覚言語モデル(VLMs)は優れた汎化性能を示していますが、現状ではビデオを処理することはできません。したがって、アクション理解に不可欠な空間時間的なパターンを抽出することは不可能です。本論文では、ViTsとVLMsの補完的な強みを活用するための4段階プロンプト(FTP)フレームワークを提案します。我々はViTsの強力な空間時間表現能力を維持しつつ、VLM出力と合わせることで視覚エンコーディングをより包括的かつ一般的に改善します。FTPフレームワークには、ビデオにおける人間の行動の特定の側面に焦点を当てる4つの特徴処理器が追加されます:行動カテゴリ、行動コンポーネント、行動説明、およびコンテキスト情報。VLMsは訓練中にのみ使用され、推論時の計算コストは最小限に抑えられます。我々のアプローチは一貫して最先端の性能を達成しており、例えばKinetics-400では93.8%のトップ1精度を達成し、Something-Something V2では83.4%のトップ1精度を達成しました。これはそれぞれVideoMAEv2よりも2.8%と2.6%上回る結果となっています。