MaxViT : Vision Transformer à Axes Multiples

Les Transformers ont récemment suscité un intérêt croissant au sein de la communauté du traitement d’images. Toutefois, la limitation de la scalabilité des mécanismes d’attention auto-attention par rapport à la taille des images a freiné leur adoption large dans les architectures de pointe pour la vision. Dans cet article, nous introduisons un modèle d’attention efficace et évolutif, que nous appelons attention multi-axe, composé de deux composantes : une attention locale bloquée et une attention globale dilatée. Ces choix architecturaux permettent des interactions spatiales globales-locales à toute résolution d’entrée, tout en restant à complexité linéaire. Nous proposons également un nouvel élément architectural en combinant efficacement notre modèle d’attention avec des convolutions, et introduisons ainsi une architecture hiérarchique simple pour la vision, baptisée MaxViT, en répétant simplement le bloc de base sur plusieurs étages. Notamment, MaxViT est capable de « voir » globalement à travers toute la profondeur du réseau, même dans les premiers étages à haute résolution. Nous démontrons l’efficacité de notre modèle sur une large gamme de tâches visuelles. En classification d’images, MaxViT atteint des performances de pointe dans diverses configurations : sans données supplémentaires, il obtient une précision top-1 de 86,5 % sur ImageNet-1K ; avec une pré-formation sur ImageNet-21K, notre modèle atteint 88,7 % de précision top-1. Pour les tâches en aval, MaxViT, en tant que modèle de base, se distingue par de bonnes performances en détection d’objets ainsi qu’en évaluation esthétique visuelle. Nous montrons également que notre modèle possède une forte capacité de modélisation générative sur ImageNet, mettant en évidence le potentiel supérieur des blocs MaxViT comme module universel pour la vision. Le code source et les modèles entraînés seront disponibles à l’adresse suivante : https://github.com/google-research/maxvit.