HyperAIHyperAI

Command Palette

Search for a command to run...

AdaMAE:マスク自動エンコーダを用いた効率的な時空間学習のための適応的マスキング

Wele Gedara Chaminda Bandara Naman Patel Ali Gholami Mehdi Nikkhah Motilal Agrawal Vishal M. Patel

概要

マスク付き自己符号化器(Masked Autoencoders, MAEs)は、可視データのトークンからマスクされた入力データを再構成することで、画像、テキスト、音声、動画などに対する汎用的な表現を学習する。現在の動画向けMAE手法では、ランダムなパッチ、チューブ、またはフレームベースのマスキング戦略を用いて、これらのトークンを選択している。本論文では、エンドツーエンドで学習可能な適応的マスキング戦略であるAdaMAEを提案する。本研究の適応的マスキング戦略は、補助的なサンプリングネットワークを用いて、空間時間的パッチトークンの間で意味的文脈に基づいて可視トークンをサンプリングする。このネットワークは、空間時間パッチトークン上でのカテゴリカル分布を推定する。再構成誤差の期待値を増加させるトークンが報酬を与えられ、可視トークンとして選択される。これは強化学習におけるポリシー勾配法に着想を得ている。本研究では、AdaMAEが高空間時間的情報領域からより多くのトークンをサンプリングすることを示し、結果として95%のトークンをマスク可能となり、メモリ要件の低減と事前学習の高速化を実現した。また、Something-Something v2(SSv2)データセットを用いた消去実験により、本手法の有効性を検証し、ViT-Baseバックボーンと800エポックの事前学習条件下で、SSv2およびKinetics-400の行動分類タスクにおいて、それぞれトップ1精度70.0%および81.7%という最先端の性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています