HyperAIHyperAI
il y a 3 mois

CycleMLP : une architecture de type MLP pour la prédiction dense

Shoufa Chen, Enze Xie, Chongjian Ge, Runjian Chen, Ding Liang, Ping Luo
CycleMLP : une architecture de type MLP pour la prédiction dense
Résumé

Cet article présente une architecture simple inspirée des réseaux de neurones multicouches (MLP), appelée CycleMLP, qui constitue un noyau polyvalent pour la reconnaissance visuelle et les tâches de prédiction dense. Contrairement aux architectures MLP modernes telles que MLP-Mixer, ResMLP et gMLP, dont la structure dépend de la taille de l’image et qui s’avèrent inadaptées aux tâches de détection d’objets et de segmentation, CycleMLP présente deux avantages majeurs par rapport aux approches actuelles : (1) elle est capable de traiter des images de tailles variées ; (2) elle atteint une complexité computationnelle linéaire en fonction de la taille de l’image grâce à l’utilisation de fenêtres locales. En revanche, les MLP précédents présentent une complexité $O(N^2)$ en raison des connexions spatiales complètes. Nous avons conçu une famille de modèles qui surpassent non seulement les MLP existants, mais aussi certains modèles basés sur les Transformers d’avant-garde, tels que Swin Transformer, tout en utilisant moins de paramètres et de FLOPs. Ce travail étend ainsi la portée d’application des modèles inspirés des MLP, les rendant ainsi un noyau robuste et polyvalent pour les tâches de prédiction dense. CycleMLP obtient des résultats compétitifs en détection d’objets, segmentation d’instances et segmentation sémantique. En particulier, CycleMLP-Tiny dépasse Swin-Tiny de 1,3 % en mIoU sur le jeu de données ADE20K, avec un coût computationnel inférieur. De plus, CycleMLP démontre une excellente robustesse en situation de zéro-shot sur le jeu de données ImageNet-C. Le code source est disponible à l’adresse suivante : https://github.com/ShoufaChen/CycleMLP.