2ヶ月前
vid-TLDR: 軽量ビデオトランスフォーマーのための学習不要トークンマージング
Joonmyung Choi; Sanghyeok Lee; Jaewon Chu; Minhyuk Choi; Hyunwoo J. Kim

要約
ビデオトランスフォーマーは、優れた表現力と柔軟性により、さまざまなビデオの下流タスクにおける主要な解決策となっています。しかし、これらのビデオトランスフォーマーは、全フレームにわたる大量のトークンによって引き起こされる重い計算コストに悩まされており、これがモデルの訓練における最大の障壁となっています。さらに、背景などの主なコンテンツに関連しないパッチがモデルの汎化性能を低下させる原因となっています。これらの問題に対処するため、私たちは追加の訓練なしで背景トークンをマージすることでビデオトランスフォーマーの効率を向上させることを目指した軽量ビデオトランスフォーマー(vid-TLDR)のための訓練フリー・トークンマージング手法を提案します。vid-TLDRでは、注目領域マップ(attention map)のみを使用してビデオ内の显著領域を捉える新しいアプローチを導入します。さらに、背景トークンを削除し、物体スコアを強調する显著性に基づくトークンマージング戦略を導入します。実験結果は、vid-TLDRがベースモデルと比較して競争力のある性能を維持しながら、ビデオトランスフォーマーの計算複雑さを大幅に軽減することを示しています。コードは https://github.com/mlvlab/vid-TLDR で公開されています。