18日前

AdaMAE:マスク自動エンコーダを用いた効率的な時空間学習のための適応的マスキング

Wele Gedara Chaminda Bandara, Naman Patel, Ali Gholami, Mehdi Nikkhah, Motilal Agrawal, Vishal M. Patel
AdaMAE:マスク自動エンコーダを用いた効率的な時空間学習のための適応的マスキング
要約

マスク付き自己符号化器(Masked Autoencoders, MAEs)は、可視データのトークンからマスクされた入力データを再構成することで、画像、テキスト、音声、動画などに対する汎用的な表現を学習する。現在の動画向けMAE手法では、ランダムなパッチ、チューブ、またはフレームベースのマスキング戦略を用いて、これらのトークンを選択している。本論文では、エンドツーエンドで学習可能な適応的マスキング戦略であるAdaMAEを提案する。本研究の適応的マスキング戦略は、補助的なサンプリングネットワークを用いて、空間時間的パッチトークンの間で意味的文脈に基づいて可視トークンをサンプリングする。このネットワークは、空間時間パッチトークン上でのカテゴリカル分布を推定する。再構成誤差の期待値を増加させるトークンが報酬を与えられ、可視トークンとして選択される。これは強化学習におけるポリシー勾配法に着想を得ている。本研究では、AdaMAEが高空間時間的情報領域からより多くのトークンをサンプリングすることを示し、結果として95%のトークンをマスク可能となり、メモリ要件の低減と事前学習の高速化を実現した。また、Something-Something v2(SSv2)データセットを用いた消去実験により、本手法の有効性を検証し、ViT-Baseバックボーンと800エポックの事前学習条件下で、SSv2およびKinetics-400の行動分類タスクにおいて、それぞれトップ1精度70.0%および81.7%という最先端の性能を達成した。

AdaMAE:マスク自動エンコーダを用いた効率的な時空間学習のための適応的マスキング | 最新論文 | HyperAI超神経