3ヶ月前
CycleMLP:密度予測向けのMLP類似アーキテクチャ
Shoufa Chen, Enze Xie, Chongjian Ge, Runjian Chen, Ding Liang, Ping Luo

要約
本論文では、視覚認識および密度予測タスクに適した汎用的なバックボーンとしての役割を果たす、シンプルなMLP型アーキテクチャ「CycleMLP」を提案する。近年のMLPアーキテクチャ(MLP-Mixer、ResMLP、gMLPなど)は、画像サイズに依存する構造を採用しており、オブジェクト検出やセグメンテーションにおいて実用的に困難であるのに対し、CycleMLPは以下の2つの利点を持つ。(1) 異なる画像サイズに対応可能である。(2) 局所的なウィンドウを用いることで、画像サイズに対して線形の計算量(線形計算複雑度)を達成する。これに対して、従来のMLPは全空間接続のため、計算量が$O(N^2)$となる。我々は、パラメータ数およびFLOPsをより少なく抑えつつ、既存のMLPモデルを上回り、さらにはSwin Transformerを含む最先端のTransformerベースモデルをも凌駕するモデル群を構築した。これにより、MLP型モデルの適用範囲を拡大し、密度予測タスクにおける汎用的なバックボーンとしての可能性を示した。CycleMLPはオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションにおいて競争力ある性能を達成している。特に、ADE20Kデータセットにおいて、CycleMLP-TinyはSwin-Tinyよりも1.3%高いmIoUを達成しつつ、より少ないFLOPsで実現した。さらに、ImageNet-Cデータセットにおいても、ゼロショットロバスト性に優れた性能を示した。コードは以下のURLで公開されている:https://github.com/ShoufaChen/CycleMLP。