ResMLP : Réseaux feedforward pour la classification d'images avec une formation efficace en données

Nous présentons ResMLP, une architecture entièrement fondée sur des perceptrons multicouches pour la classification d’images. Il s’agit d’un réseau résiduel simple qui alterne (i) une couche linéaire où les patches d’image interagissent de manière indépendante et identique à travers les canaux, et (ii) un réseau feed-forward à deux couches où les canaux interagissent de manière indépendante par patch. En étant entraîné avec une stratégie moderne d’entraînement utilisant une augmentation de données importante et éventuellement une distillation, ResMLP atteint des performances remarquablement bonnes en termes d’équilibre entre précision et complexité sur ImageNet. Nous entraînons également des modèles ResMLP dans un cadre auto-supervisé, afin de supprimer davantage les biais liés à l’utilisation d’un ensemble de données étiquetées. Enfin, en adaptant notre modèle à la traduction automatique, nous obtenons des résultats surprenants. Nous mettons à disposition des modèles pré-entraînés ainsi que notre code, basé sur la bibliothèque Timm.