
要約
大規模なビデオ言語事前学習は、ビデオ言語理解タスクの進歩に著しい貢献をしています。しかし、特に長尺ビデオにおいて、ビデオエンコーディングの重い計算負荷は依然として効率性の大きなボトルネックとなっています。これらのビデオは、その本質的な3次元特性と時空間冗長性により、大量の視覚トークンを含んでおり、複雑な時間的および空間的な関係を捉えることが困難です。この問題に対処するため、私たちは適応的に類似フレームや各フレーム内の類似パッチを集約する効率的な手法である「時間空間トークン集約(TEmporal-Spatial Token Aggregation: TESTA)」を提案します。TESTAは視覚トークン数を75%削減し、ビデオエンコーディングの高速化を実現します。TESTAに基づいて、各ビデオエンコーダーブロックに分割された時空間トークン集約モジュールを搭載した事前学習済みのビデオ言語モデルを導入しました。我々のモデルは、段落からビデオ検索と長尺ビデオQAタスクのために5つのデータセットで評価されました。実験結果は、TESTAが計算効率を1.7倍向上させるとともに、より長い入力フレームの処理におけるスケーラビリティにより大幅な性能向上が達成されることを示しています。例えば、QuerYDでは+13.7 R@1、Condensed Movieでは+6.5 R@1の改善が見られました。