2ヶ月前
SlowFast-LLaVA: ビデオ大規模言語モデルの強力な学習なしベースライン
Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan

要約
私たちは、詳細な空間意味論と長期的な時間的文脈を共に捉えつつ、一般的に使用される大規模言語モデル(LLM)のトークン制限を超えない訓練不要のビデオ大規模言語モデルとして、SlowFast-LLaVA(または略してSF-LLaVA)を提案します。これは、ビデオ LLM の入力に対して二つのストリームを持つ SlowFast デザインを使用することで、サンプリングされたビデオフレームから特徴量を効果的に集約することによって実現されます。具体的には、Slow パスは可能な限り多くの空間的詳細(例:24x24 トークン)を保ちながら低フレームレートで特徴量を抽出し、Fast パスは高フレームレートで動作しますが、より大きな空間プーリングストライド(例:6倍のダウンサンプリング)を使用して動きの手がかりに焦点を当てます。その結果、このデザインはビデオ内の詳細を理解するのに有益な空間的および時間的特徴量を適切に捉えることが可能になります。実験結果は、SF-LLaVA が幅広いビデオタスクにおいて既存の訓練不要手法よりも優れた性能を示していることを示しています。一部のベンチマークでは、ビデオデータセット上で微調整された最先端のビデオ LLM と同等かそれ以上の性能を達成しています。