MOAT:交互的なモバイル畳み込みとアテンションが強力な視覚モデルをもたらす

本論文では、MObile畳み込み(いわゆる逆残差ブロック)とATtention(注目)を統合したニューラルネットワークの族であるMOATを提案する。現在の研究では、独立したモバイル畳み込みブロックとTransformerブロックを段階的に積み重ねるアプローチが一般的であるが、本研究ではこれらを効果的に統合し、MOATブロックを構築する。標準的なTransformerブロックを出発点とし、その多層パーセプトロン(MLP)をモバイル畳み込みブロックに置き換え、さらに自己注意機構(self-attention)の前段で順序を再構成する。このモバイル畳み込みブロックは、ネットワークの表現力向上に寄与するだけでなく、より優れたダウンサンプリング特徴量を生成する。概念的にシンプルなMOATネットワークは、驚くほど高い性能を発揮し、ImageNet22Kで事前学習した後、ImageNet-1KおよびImageNet-1K-V2でそれぞれ89.1%/81.5%のトップ1精度を達成した。さらに、グローバル注意機構をウィンドウ注意機構に置き換えることで、高解像度入力が必要な下流タスクにスムーズに適用可能である。モバイル畳み込みが画素間の局所情報を効果的に交換(その結果、ウィンドウ間の情報伝達も可能)するため、追加のウィンドウシフト機構(window-shifting mechanism)は不要である。その結果、COCO物体検出タスクでは227Mパラメータのモデルで59.2%のボックスAP(単一スケール推論、ハードNMS)を達成し、ADE20Kセマンティックセグメンテーションでは496Mパラメータのモデルで57.6%のmIoU(単一スケール推論)を実現した。最後に、チャンネル数を単純に削減することで得られる「tiny-MOAT」ファミリーも、ImageNet上で複数のモバイル特化型Transformerベースモデルを驚くほど上回る性能を示した。tiny-MOATファミリーは下流タスクでもベンチマーク化され、コミュニティにおける基準モデルとしての役割を果たす。本研究で提示するシンプルでありながら効果的なMOATが、畳み込みと自己注意機構のよりシームレスな統合を促進することを期待する。コードは公開されている。