MLP-Mixer : une architecture entièrement basée sur les MLP pour la vision

Les réseaux de neurones convolutifs (CNN) sont le modèle de référence en vision par ordinateur. Récemment, les architectures fondées sur l’attention, telles que le Vision Transformer, ont également gagné en popularité. Dans cet article, nous montrons que si les opérations de convolution et l’attention sont toutes deux suffisantes pour obtenir de bonnes performances, aucune d’entre elles n’est nécessaire. Nous introduisons MLP-Mixer, une architecture fondée exclusivement sur des perceptrons multicouches (MLP). MLP-Mixer comporte deux types de couches : l’un où des MLP sont appliqués indépendamment à chaque patch d’image (c’est-à-dire « mélangant » les caractéristiques locales), et l’autre où des MLP sont appliqués entre les patches (c’est-à-dire « mélangant » les informations spatiales). Lorsqu’entraîné sur de grands jeux de données ou avec des schémas modernes de régularisation, MLP-Mixer atteint des résultats compétitifs sur des benchmarks de classification d’images, tout en présentant un coût de pré-entraînement et d’inférence comparable aux modèles les plus avancés. Nous espérons que ces résultats stimuleront de nouvelles recherches au-delà des cadres établis des CNN et des Transformers.