17日前

128フレームまで拡張された動画マスク自動エンコーダー

Nitesh Bharadwaj Gundavarapu, Luke Friedman, Raghav Goyal, Chaitra Hegde, Eirikur Agustsson, Sagar M. Waghmare, Mikhail Sirotenko, Ming-Hsuan Yang, Tobias Weyand, Boqing Gong, Leonid Sigal
128フレームまで拡張された動画マスク自動エンコーダー
要約

ビデオ理解分野では、自己教師あり事前学習手法を採用した最近のビデオ基礎モデルが顕著な進展を遂げており、特にマスク自動符号化器(Masked Autoencoders: MAE)がその設計の主流となっている。しかし、これまでの多くの研究では、ハードウェアのメモリ容量や計算リソースの制約により、長さが16~32フレーム程度の比較的短いビデオ表現に限定されており、長さが増すにつれて密なメモリ集約型自己注意機構(self-attention)の計算コストが急激に増加するため、長時間のビデオ処理は困難であった。この課題に対処する自然なアプローチとして、復元処理時にトークンをサブサンプリングして再構成する(またはデコーダーでのマスク)戦略が考えられる。本研究では、再構成対象のトークンを優先順位に基づいて選定する有効な戦略を提案する。これにより、従来のランダムまたは一様マスク戦略よりも優れた性能を発揮する128フレームの長時間ビデオ処理が可能となった。本手法の核となるのは、重要度の高いトークンを優先的に選択する適応的デコーダーマスク戦略であり、再構成の目的として量子化されたトークンを使用している。この適応的戦略は、トークンとその重要度を同時に学習する強力なMAGVITベースのトークナイザーを活用している。広範なアブレーション実験を通じて、設計選択の有効性を検証し、短時間ビデオ(32フレーム)モデルと比較して、長時間ビデオ(128フレーム)エンコーダーにおいて性能が向上することを確認した。本研究で提案する長時間ビデオ用マスク自動符号化器(Long-Video Masked Autoencoder: LVMAE)により、Diving48データセットにおいてSOTA(最先端)を3.9ポイント上回り、EPIC-Kitchens-100の動詞分類タスクでは2.5ポイントの向上を達成した。これらの成果は、シンプルな基本アーキテクチャとビデオのみの事前学習(一部の先行研究が要求する数百万のラベル付きビデオ・テキストペアや特殊なエンコーダーを必要としない)に依拠している点でも、大きな意義を持つ。