HyperAIHyperAI
il y a 17 jours

ConvMLP : MLPs hiérarchiques à convolution pour la vision

Jiachen Li, Ali Hassani, Steven Walton, Humphrey Shi
ConvMLP : MLPs hiérarchiques à convolution pour la vision
Résumé

Les architectures basées sur les MLP, qui se composent d'une suite de blocs de perceptrons multicouches consécutifs, ont récemment montré des performances comparables à celles des méthodes basées sur les réseaux de convolution et les transformateurs. Toutefois, la plupart d'entre elles utilisent des MLP spatiaux prenant en entrée des données de dimension fixe, ce qui rend leur application difficile aux tâches en aval telles que la détection d'objets et la segmentation sémantique. En outre, les architectures à une seule étape limitent davantage les performances dans d'autres tâches de vision par ordinateur, tandis que les couches entièrement connectées entraînent une charge computationnelle importante. Pour surmonter ces limitations, nous proposons ConvMLP : un MLP hiérarchique basé sur la convolution pour la reconnaissance visuelle, conçu de manière intégrée et légère, avec une architecture par étapes combinant des couches de convolution et des MLP. En particulier, ConvMLP-S atteint une précision top-1 de 76,8 % sur ImageNet-1k avec seulement 9 millions de paramètres et 2,4 G de MACs (respectivement 15 % et 19 % de ceux de MLP-Mixer-B/16). Des expériences menées sur la détection d'objets et la segmentation sémantique montrent également que les représentations visuelles apprises par ConvMLP peuvent être transférées de manière transparente et atteindre des résultats compétitifs avec un nombre réduit de paramètres. Le code source et les modèles pré-entraînés sont disponibles publiquement à l'adresse suivante : https://github.com/SHI-Labs/Convolutional-MLPs.