6ヶ月前

概要

マスク付き自己符号化器（Masked Autoencoders, MAEs）は、可視データのトークンからマスクされた入力データを再構成することで、画像、テキスト、音声、動画などに対する汎用的な表現を学習する。現在の動画向けMAE手法では、ランダムなパッチ、チューブ、またはフレームベースのマスキング戦略を用いて、これらのトークンを選択している。本論文では、エンドツーエンドで学習可能な適応的マスキング戦略であるAdaMAEを提案する。本研究の適応的マスキング戦略は、補助的なサンプリングネットワークを用いて、空間時間的パッチトークンの間で意味的文脈に基づいて可視トークンをサンプリングする。このネットワークは、空間時間パッチトークン上でのカテゴリカル分布を推定する。再構成誤差の期待値を増加させるトークンが報酬を与えられ、可視トークンとして選択される。これは強化学習におけるポリシー勾配法に着想を得ている。本研究では、AdaMAEが高空間時間的情報領域からより多くのトークンをサンプリングすることを示し、結果として95％のトークンをマスク可能となり、メモリ要件の低減と事前学習の高速化を実現した。また、Something-Something v2（SSv2）データセットを用いた消去実験により、本手法の有効性を検証し、ViT-Baseバックボーンと800エポックの事前学習条件下で、SSv2およびKinetics-400の行動分類タスクにおいて、それぞれトップ1精度70.0％および81.7％という最先端の性能を達成した。

ソースPDF