HyperAIHyperAI

Command Palette

Search for a command to run...

ブートストラップ化されたマスク済み自己符号化器によるビジョンBERT事前学習

Xiaoyi Dong Jianmin Bao Ting Zhang Dongdong Chen Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu

概要

本稿では、視覚BERTの事前学習を目的とした新たなアプローチとして、ブートストラップ化されたマスク付き自己符号化器(Bootstrapped Masked Autoencoders, BootMAE)を提案する。BootMAEは、元々のマスク付き自己符号化器(MAE)を改善するための2つの核心的な設計を採用している。第一に、オンライン特徴量を追加のBERT予測ターゲットとして提供するモメンタムエンコーダの導入。第二に、エンコーダがターゲット固有の情報を記憶する負荷を軽減する、ターゲットに意識的なデコーダの設計である。第一の設計は、事前に学習されたMAEを用いてマスクされたトークンの予測ターゲットとして特徴量を抽出することで、より優れた事前学習性能が得られることに着目して構築された。そこで、元のMAEエンコーダと並列にモメンタムエンコーダを導入し、自身の表現をBERTの予測ターゲットとして用いることで、事前学習性能をブートストラップ的に向上させる。第二の設計では、エンコーダから直接、ターゲット固有の情報(例えば、マスクされていないパッチのピクセル値)をデコーダに供給することで、エンコーダが予測ターゲットに関連する未マスクトークンの情報を記憶する必要を軽減する。その結果、エンコーダはBERT事前学習の目的である意味的モデリングに集中でき、予測ターゲットに関連する情報を記憶するための能力を無駄に消費する必要がなくなる。広範な実験の結果、ViT-Bバックボーンを用いた場合、BootMAEはImageNet-1KにおいてTop-1精度84.2%を達成し、同じ事前学習エポック数下でMAEを+0.8%上回った。また、ADE20KにおけるセマンティックセグメンテーションではmIoUが+1.0向上し、COCOデータセットにおけるオブジェクト検出およびセグメンテーションでは、ボックスAPが+1.3、マスクAPが+1.4向上した。コードはhttps://github.com/LightDXY/BootMAEにて公開されている


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています