17日前
MLP-Mixer: 視覚向けの完全MLPアーキテクチャ
Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy

要約
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョン分野において標準的なモデルとして広く用いられている。近年、Vision Transformerをはじめとするアテンションベースのネットワークも注目を集めている。本論文では、畳み込み演算とアテンションの両方が優れた性能を達成する上で十分である一方で、それらが必須であるとは限らないことを示す。我々は、マルチレイヤーパーセプトロン(MLP)にのみ依拠するアーキテクチャであるMLP-Mixerを提案する。MLP-Mixerは2種類のレイヤーから構成される:1つは画像パッチごとに独立してMLPを適用する(すなわち、各位置の特徴量を「混合」する)、もう1つはパッチ全体にわたってMLPを適用する(すなわち、空間情報を「混合」する)ものである。大規模なデータセット上で学習する、あるいは現代的な正則化手法を用いることで、MLP-Mixerは画像分類ベンチマークにおいて、最先端モデルと同等の性能を達成する。また、事前学習および推論のコストも、現行の最先端モデルと比較して同程度である。これらの結果が、既に確立されたCNNやTransformerにとどまらない、さらなる研究の発展を促すことを期待している。