2ヶ月前

EVEREST: 冗長な空間時間トークンを削除した効率的なマスク付きビデオ自己符号化器

Sunil Hwang; Jaehong Yoon; Youngwan Lee; Sung Ju Hwang
EVEREST: 冗長な空間時間トークンを削除した効率的なマスク付きビデオ自己符号化器
要約

マスク付きビデオ自己符号化器(MVA)アプローチは、以前のビデオ表現学習手法を大幅に上回ることでその可能性を示しています。しかし、ランダムなマスキング戦略により、情報量の少ないトークンやフレームの予測に過度な計算量とメモリが浪費されています(例えば、128台のNVIDIA A100 GPUを搭載した16ノード以上)。この問題を解決するために、我々はビデオ内のパッチ間に情報密度が均等でないことを活用し、動的特徴が豊富なトークンを見つけて情報量の少ないトークンを排除する新しいMVAアプローチ「EVEREST」を提案します。このアプローチは、事前学習と微調整の両段階で適用されます。さらに、情報量が多いフレーム選択戦略を提示し、モデルが最小限の冗長性で情報量が多く因果関係のあるフレームに焦点を当てるようになります。我々の方法は、MVAの計算量とメモリ要件を大幅に削減し、8つのGPUを持つ単一のマシン上で事前学習と微調整を行うことが可能となりました。複数のベンチマークや未整理のEgo4Dデータセットにおいても、計算量とメモリ消費が大きいベースラインと同等の性能を達成しています。我々は本研究がビデオ理解に関するさらなる研究への障壁低減に貢献することを期待しています。

EVEREST: 冗長な空間時間トークンを削除した効率的なマスク付きビデオ自己符号化器 | 最新論文 | HyperAI超神経