2ヶ月前

Vamos: 多様な行動モデルによるビデオ理解

Shijie Wang; Qi Zhao; Minh Quan Do; Nakul Agarwal; Kwonjoon Lee; Chen Sun
Vamos: 多様な行動モデルによるビデオ理解
要約

ビデオ理解における良質な表現とは、例えば将来の活動を予測したり、ビデオに基づいた質問に答えるためのものですが、どのようなものが適しているのでしょうか?従来のアプローチは、ビデオピクセルから直接エンドツーエンド学習を行うことに焦点を当てていましたが、私たちは汎用的なビデオキャプションなどのテキストベースの表現を見直すことを提案します。これらの表現は解釈可能であり、大規模言語モデル(LLM)によって直接利用できます。直感的には、異なるビデオ理解タスクには補完的で異なる粒度の表現が必要であると考えられます。この目的のために、私たちは大規模言語モデルを「推論器」として使用する多様な行動モデル(Vamos)という学習フレームワークを提案します。Vamosは視覚埋め込みと自由形式のテキスト記述を柔軟に活用することができます。質問回答において重要なテキスト証拠を解釈するために、私たちはトークンと非線形モデルに対応したボトルネックモデルの概念を一般化しました。このモデルはハードアテンションを使用して自由形式のテキストから小さなサブセットのトークンを選択し、LLM推論器への入力として使用します。私たちはEgo4D、NeXT-QA、IntentQA、Spacewalk-18、およびEgoSchemaという5つの補完的なベンチマークでVamosを評価しました。これらのベンチマークでは時系列動態のモデリング、視覚履歴のエンコーディング、推論能力が評価されます。驚くべきことに、テキストベースの表現はすべてのベンチマークで一貫して競争力のある性能を達成しており、視覚埋め込みが性能向上にほとんど寄与していないか全く寄与していないことが示されました。これはLLM時代におけるテキストベースのビデオ表現の有効性を示しています。さらに私たちのトークンボトルネックモデルが自由形式のテキストから関連する証拠を選択できることやテスト時の介入をサポートできることを示しています。またこのモデルは推論速度を約5倍向上させつつも競争力のある質問回答性能を維持しています。コードとモデルは公開されており、https://brown-palm.github.io/Vamos/ からアクセスできます。