ブートストラップ化されたマスク済み自己符号化器によるビジョンBERT事前学習

本稿では、視覚BERTの事前学習を目的とした新たなアプローチとして、ブートストラップ化されたマスク付き自己符号化器(Bootstrapped Masked Autoencoders, BootMAE)を提案する。BootMAEは、元々のマスク付き自己符号化器(MAE)を改善するための2つの核心的な設計を採用している。第一に、オンライン特徴量を追加のBERT予測ターゲットとして提供するモメンタムエンコーダの導入。第二に、エンコーダがターゲット固有の情報を記憶する負荷を軽減する、ターゲットに意識的なデコーダの設計である。第一の設計は、事前に学習されたMAEを用いてマスクされたトークンの予測ターゲットとして特徴量を抽出することで、より優れた事前学習性能が得られることに着目して構築された。そこで、元のMAEエンコーダと並列にモメンタムエンコーダを導入し、自身の表現をBERTの予測ターゲットとして用いることで、事前学習性能をブートストラップ的に向上させる。第二の設計では、エンコーダから直接、ターゲット固有の情報(例えば、マスクされていないパッチのピクセル値)をデコーダに供給することで、エンコーダが予測ターゲットに関連する未マスクトークンの情報を記憶する必要を軽減する。その結果、エンコーダはBERT事前学習の目的である意味的モデリングに集中でき、予測ターゲットに関連する情報を記憶するための能力を無駄に消費する必要がなくなる。広範な実験の結果、ViT-Bバックボーンを用いた場合、BootMAEはImageNet-1KにおいてTop-1精度84.2%を達成し、同じ事前学習エポック数下でMAEを+0.8%上回った。また、ADE20KにおけるセマンティックセグメンテーションではmIoUが+1.0向上し、COCOデータセットにおけるオブジェクト検出およびセグメンテーションでは、ボックスAPが+1.3、マスクAPが+1.4向上した。コードはhttps://github.com/LightDXY/BootMAEにて公開されている。