HyperAIHyperAI
il y a 3 mois

MetaFormer est en réalité ce dont vous avez besoin pour la vision

Weihao Yu, Mi Luo, Pan Zhou, Chenyang Si, Yichen Zhou, Xinchao Wang, Jiashi Feng, Shuicheng Yan
MetaFormer est en réalité ce dont vous avez besoin pour la vision
Résumé

Les Transformers ont démontré un grand potentiel dans les tâches de vision par ordinateur. Une croyance répandue est que c’est principalement le module de mélange de tokens basé sur l’attention qui explique leur efficacité. Toutefois, des travaux récents montrent que ce module d’attention peut être remplacé par des MLP spatiaux sans compromettre significativement les performances du modèle. À partir de cette observation, nous formulons l’hypothèse que l’architecture générale des Transformers, plutôt que le module spécifique de mélange de tokens, est en réalité plus fondamentale pour leur performance. Pour vérifier cette hypothèse, nous remplaçons délibérément le module d’attention dans les Transformers par un opérateur de pooling spatial extrêmement simple, ne réalisant qu’un mélange de tokens basique. De manière surprenante, le modèle résultant, nommé PoolFormer, atteint des performances compétitives sur plusieurs tâches de vision par ordinateur. Par exemple, sur ImageNet-1K, PoolFormer obtient une précision top-1 de 82,1 %, dépassant les modèles de référence bien ajustés Vision Transformer et MLP-like DeiT-B et ResMLP-B24 de respectivement 0,3 % et 1,1 %, tout en utilisant 35 % et 52 % de paramètres en moins, ainsi que 50 % et 62 % d’opérations multiplicatives-accumulatives (MACs) en moins. L’efficacité de PoolFormer confirme notre hypothèse et motive la proposition du concept de « MetaFormer », une architecture générale extraite des Transformers sans spécifier le module de mélange de tokens. Sur la base d’expérimentations étendues, nous soutenons que le MetaFormer est le véritable moteur derrière les performances supérieures des modèles récents basés sur les Transformers et les MLP-like dans les tâches de vision. Ce travail appelle à une recherche future plus ciblée sur l’amélioration du MetaFormer, plutôt que sur les modules de mélange de tokens. En outre, le modèle PoolFormer proposé peut servir de base de départ pour la conception future d’architectures MetaFormer. Le code est disponible à l’adresse suivante : https://github.com/sail-sg/poolformer.