
要約
最近、純粋なTransformerベースのモデルは、画像分類や検出などの視覚タスクにおいて大きな可能性を示している。しかし、Transformerネットワークの設計は困難である。深さ、埋め込み次元、ヘッド数が視覚Transformerの性能に大きく影響することが観察されており、従来のモデルではこれらの次元が手動で設計されていた。本研究では、視覚Transformerのアーキテクチャ探索に特化した新たなワンショットアーキテクチャサーチフレームワーク、AutoFormerを提案する。AutoFormerは、スーパーネット学習中に同一層内の異なるブロックの重みを相互に絡ませる戦略を採用している。この戦略により、学習されたスーパーネットから数千ものサブネットを非常に良好に訓練することが可能となる。特に、スーパーネットから重みを継承したサブネットの性能は、初期から再訓練した場合とほぼ同等である。また、探索されたモデル(本研究ではAutoFormerと呼ぶ)は、ViTやDeiTといった最近の最先端モデルを上回る性能を達成している。具体的には、AutoFormer-tiny/small/baseは、それぞれ570万/2290万/5370万パラメータでImageNet上で74.7%/81.7%/82.4%のトップ1精度を達成した。最後に、AutoFormerの転移性を検証するために、下流タスクベンチマークおよび蒸留実験における性能を提示した。コードとモデルは、https://github.com/microsoft/AutoML で公開されている。