
本稿では、軸方向にシフトされたMLPアーキテクチャ(AS-MLP)を提案する。MLP-Mixerとは異なり、空間的なグローバル特徴を行列転置とトークン混合MLPによってエンコードするのではなく、本手法は局所的特徴間の相互作用に重点を置いている。特徴マップのチャネルを軸方向にシフトすることで、AS-MLPは異なる軸方向からの情報フローを獲得可能となり、局所的な依存関係を捉えることが可能となる。この操作により、純粋なMLPアーキテクチャでもCNNと同等の局所受容場(receptive field)を実現できる。さらに、畳み込みニューラルネットワーク(CNN)と同様の精神に基づき、AS-MLPのブロックにおける受容場サイズや拡張率(dilation)なども設計可能である。提案するAS-MLPアーキテクチャを用いたモデルは、ImageNet-1Kデータセットにおいて88Mパラメータ、15.2 GFLOPsでTop-1精度83.3%を達成した。シンプルでありながら効果的なこのアーキテクチャは、すべてのMLPベースのアーキテクチャを上回り、わずかに低いFLOPsでもTransformerベースのアーキテクチャ(例:Swin Transformer)と比較して競争力のある性能を示した。さらに、AS-MLPは、物体検出やセマンティックセグメンテーションといった下流タスクにMLPベースのアーキテクチャを適用した初の例である。実験結果も非常に優れており、COCO検証セットでは51.5 mAP、ADE20Kデータセットでは49.5 MS mIoUを達成し、Transformerベースのアーキテクチャと比較しても競争力のある結果を示した。本研究により、MLPベースのアーキテクチャにおける強力なベースラインが確立された。コードは https://github.com/svip-lab/AS-MLP にて公開されている。