AS-MLP : Une architecture MLP à décalage axial pour la vision

Dans cet article, nous proposons une architecture MLP décalée selon l’axe (AS-MLP). Contrairement au MLP-Mixer, où les caractéristiques spatiales globales sont encodées via une transposition matricielle et un MLP de mélange de tokens, nous accordons une attention particulière aux interactions locales. En décalant axialement les canaux de la carte de caractéristiques, AS-MLP permet d’obtenir un flux d’information provenant de différentes directions axiales, ce qui permet de capturer efficacement les dépendances locales. Cette opération permet d’utiliser une architecture purement MLP afin d’atteindre un champ réceptif local équivalent à celui des architectures inspirées des réseaux de neurones convolutifs (CNN). De plus, tout comme dans les réseaux convolutifs, nous pouvons concevoir librement la taille du champ réceptif et le facteur de dilatation des blocs d’AS-MLP. Grâce à l’architecture proposée, notre modèle atteint une précision Top-1 de 83,3 % avec 88 millions de paramètres et 15,2 GFLOPs sur le jeu de données ImageNet-1K. Cette architecture simple mais efficace surpasse toutes les architectures basées sur MLP et atteint des performances compétitives par rapport aux architectures basées sur les Transformers (par exemple, Swin Transformer), même avec un nombre légèrement inférieur de FLOPs. En outre, AS-MLP est la première architecture basée sur MLP à être appliquée avec succès à des tâches en aval, telles que la détection d’objets et la segmentation sémantique. Les résultats expérimentaux sont également très prometteurs : notre AS-MLP obtient un mAP de 51,5 sur l’ensemble de validation COCO et un MS mIoU de 49,5 sur le jeu de données ADE20K, ce qui le rend compétitif par rapport aux architectures basées sur les Transformers. AS-MLP établit ainsi une nouvelle base solide pour les architectures fondées sur MLP. Le code est disponible à l’adresse suivante : https://github.com/svip-lab/AS-MLP.