11日前

マスク自動符号化器はスケーラブルな視覚学習者である

Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick
マスク自動符号化器はスケーラブルな視覚学習者である
要約

本論文では、マスク付き自己符号化器(MAE)がコンピュータビジョンにおけるスケーラブルな自己教師あり学習手法であることを示している。我々のMAEアプローチは単純である:入力画像のランダムなパッチをマスクし、欠損したピクセルを再構成する。この手法は2つの中心的な設計に基づいている。第一に、可視パッチ部分(マスクトークンを含まない)のみを処理するエンコーダと、潜在表現とマスクトークンから元の画像を再構成する軽量なデコーダを組み合わせた非対称なエンコーダ-デコーダ構造を採用している。第二に、入力画像の高比率(例えば75%)をマスクすることにより、非自明かつ意味のある自己教師ありタスクが得られることを発見した。この2つの設計を組み合わせることで、大規模モデルを効率的かつ効果的に学習可能となる:訓練速度が3倍以上高速化され、精度も向上する。本手法は高容量モデルの学習を可能にし、良好な一般化性能を実現する。例えば、単純なViT-HugeモデルはImageNet-1Kデータのみを用いる手法の中で最高の精度(87.8%)を達成した。下流タスクにおける転移性能は、従来の教師あり事前学習を上回り、スケーリングの観点からも有望な挙動を示している。

マスク自動符号化器はスケーラブルな視覚学習者である | 最新論文 | HyperAI超神経