
Transformerは、自己注意(self-attention)機構を用いた長距離依存性のモデリング能力に優れているため、さまざまなコンピュータビジョンタスクにおいて大きな潜在能力を示している。しかし、従来のビジョンTransformerは画像を1次元の視覚トークン列として扱うため、局所的な視覚構造をモデリングするための内在的な誘導バイアス(Inductive Bias, IB)を欠いており、スケールの変動に対処する能力にも限界がある。あるいは、このようなIBを暗黙的に学習するためには大規模な訓練データと長時間の訓練スケジュールを必要とする。本論文では、畳み込みから得られる内在的な誘導バイアスを活用することで、Vision Transformerを向上させる新たなアーキテクチャ、すなわちViTAE(Vision Transformer Advanced by Exploring intrinsic IB from convolutions)を提案する。技術的には、ViTAEは複数の異なる拡張率(dilation rate)を持つ畳み込みを用いて、複数のスケールのコンテキストを豊かに含むトークンに画像をダウンサンプリング・埋め込みするための複数の空間ピラミッド還元モジュールを採用している。これにより、内在的なスケール不変性のIBを獲得し、さまざまなスケールの物体に対してもロバストな特徴表現を学習可能となる。さらに、各Transformer層において、マルチヘッド自己注意モジュールと並列して畳み込みブロックを設け、その出力をフィードフォワードネットワークへ融合して入力する。これにより、局所性に関する内在的なIBを獲得し、局所特徴とグローバル依存性を協調的に学習することが可能となる。ImageNetおよび下流タスクにおける実験結果から、ViTAEがベースラインのTransformerおよび同時期の他の手法に対して優れた性能を示すことが確認された。ソースコードおよび事前学習済みモデルはGitHubにて公開される予定である。