3ヶ月前

メタフォーマーは実際にはビジョンに必要なものである

Weihao Yu, Mi Luo, Pan Zhou, Chenyang Si, Yichen Zhou, Xinchao Wang, Jiashi Feng, Shuicheng Yan
メタフォーマーは実際にはビジョンに必要なものである
要約

トランスフォーマーは、コンピュータビジョンタスクにおいて大きな潜在能力を示している。一般的な認識として、注目(attention)に基づくトークンミキサー(token mixer)モジュールが、その優れた性能の主因であるとされている。しかし、最近の研究では、トランスフォーマーにおける注目モジュールを空間的MLP(多層パーセプトロン)で置き換えても、依然として良好な性能が得られることを示している。この観察に基づき、我々は、トランスフォーマーの一般的なアーキテクチャ自体が、モデル性能においてより本質的な役割を果たしているのだと仮説を立てる。これを検証するために、トランスフォーマーの注目モジュールを極めて単純な空間プーリング演算子に意図的に置き換え、基本的なトークンミキシングのみを行うモデルを構築した。驚くべきことに、その結果得られたモデル(PoolFormer)は、複数のコンピュータビジョンタスクにおいて競争力のある性能を達成した。例えば、ImageNet-1Kにおいて、PoolFormerはトップ1精度82.1%を達成し、調整の行き届いたVision TransformerおよびMLP型ベースライン(DeiT-BおよびResMLP-B24)をそれぞれ0.3%および1.1%上回る性能を発揮した。さらに、パラメータ数は35%/52%削減、MAC(乗算-加算演算)数は50%/62%削減を実現した。このPoolFormerの有効性は、我々の仮説を裏付け、トランスフォーマーの具体的なトークンミキサーを規定しない、トランスフォーマーから抽出された汎用的アーキテクチャという「メタフォーマー(MetaFormer)」という概念の導入を促した。広範な実験の結果、最近のトランスフォーマーおよびMLP型モデルが視覚タスクで優れた結果を達成する鍵は、メタフォーマーにあると主張する。本研究は、今後の研究がトークンミキサーモジュールに注目するのではなく、むしろメタフォーマーの改善に注力すべきであることを呼びかけている。また、本研究で提案するPoolFormerは、今後のメタフォーマー型アーキテクチャ設計の出発点として有用なベースラインとなる可能性がある。コードは以下のURLで公開されている:https://github.com/sail-sg/poolformer。