Swin Transformer V2:容量および解像度の拡大

大規模な自然言語処理(NLP)モデルは、飽和の兆しが見られない状態で言語タスクの性能を著しく向上させることを示しており、人間のような優れた少数例学習(few-shot learning)能力も備えている。本論文では、コンピュータビジョン分野における大規模モデルの活用を目的としており、大規模視覚モデルの訓練および応用における3つの主要な課題に取り組む。これらは、訓練の不安定性、事前学習と微調整の間における解像度のギャップ、ラベル付きデータへの過度な依存(データハンガー)である。対応するため、以下の3つの主要な技術を提案する:1)訓練の安定性を向上させるために、リジッド・ポスト・ノルム(residual-post-norm)手法とコサインアテンション(cosine attention)を組み合わせた手法;2)低解像度画像で事前学習されたモデルを、高解像度入力を持つ下流タスクに効果的に転移するための、対数間隔連続位置バイアス(log-spaced continuous position bias)法;3)大量のラベル付き画像の必要性を低減するための自己教師付き事前学習手法SimMIM。これらの技術を用いて、本研究はこれまでで最大の密結合型(dense)視覚モデルである、30億パラメータのSwin Transformer V2モデルを成功裏に訓練した。このモデルは最大1,536×1,536解像度の画像を用いた学習が可能であり、ImageNet-V2画像分類、COCO物体検出、ADE20Kセマンティックセグメンテーション、Kinetics-400動画行動分類という4つの代表的な視覚タスクにおいて、新たな性能記録を樹立した。また、Googleが開発した同規模の視覚モデルと比較して、本研究の訓練プロセスははるかに効率的であり、ラベル付きデータの消費量は40分の1、訓練時間も40分の1にまで削減されている。コードは以下のURLから公開されている:\url{https://github.com/microsoft/Swin-Transformer}。