il y a 17 jours

Réseaux de filtres globaux pour la classification d'images

Yongming Rao, Wenliang Zhao, Zheng Zhu, Jiwen Lu, Jie Zhou

Résumé

Les avancées récentes dans les modèles à auto-attention et les modèles purement basés sur les perceptrons multicouches (MLP) pour la vision ont démontré un grand potentiel à atteindre des performances prometteuses tout en réduisant les biais inductifs. Ces modèles reposent généralement sur l’apprentissage des interactions entre les positions spatiales à partir de données brutes. Cependant, la complexité de l’auto-attention et des MLP croît quadratiquement avec la taille de l’image, ce qui rend difficile leur mise à l’échelle lorsque des caractéristiques à haute résolution sont requises. Dans ce papier, nous présentons le Global Filter Network (GFNet), une architecture conceptuellement simple mais particulièrement efficace sur le plan computationnel, capable d’apprendre des dépendances spatiales à long terme dans le domaine fréquentiel avec une complexité quasi linéaire en log. Notre architecture remplace la couche d’auto-attention des vision transformers par trois opérations clés : une transformation de Fourier discrète 2D, une multiplication élément par élément entre les caractéristiques dans le domaine fréquentiel et des filtres globaux apprenables, ainsi qu’une transformation de Fourier inverse 2D. Nous montrons des compromis avantageux entre précision et complexité sur ImageNet ainsi que sur des tâches en aval. Nos résultats démontrent que GFNet peut constituer une alternative très compétitive aux modèles de type transformer et aux réseaux de neurones convolutifs (CNN) en termes d’efficacité, de capacité de généralisation et de robustesse. Le code est disponible à l’adresse suivante : https://github.com/raoyongming/GFNet