HyperAIHyperAI

Command Palette

Search for a command to run...

MaxViT : Vision Transformer à Axes Multiples

Zhengzhong Tu Hossein Talebi Han Zhang Feng Yang Peyman Milanfar Alan Bovik Yinxiao Li

Résumé

Les Transformers ont récemment suscité un intérêt croissant au sein de la communauté du traitement d’images. Toutefois, la limitation de la scalabilité des mécanismes d’attention auto-attention par rapport à la taille des images a freiné leur adoption large dans les architectures de pointe pour la vision. Dans cet article, nous introduisons un modèle d’attention efficace et évolutif, que nous appelons attention multi-axe, composé de deux composantes : une attention locale bloquée et une attention globale dilatée. Ces choix architecturaux permettent des interactions spatiales globales-locales à toute résolution d’entrée, tout en restant à complexité linéaire. Nous proposons également un nouvel élément architectural en combinant efficacement notre modèle d’attention avec des convolutions, et introduisons ainsi une architecture hiérarchique simple pour la vision, baptisée MaxViT, en répétant simplement le bloc de base sur plusieurs étages. Notamment, MaxViT est capable de « voir » globalement à travers toute la profondeur du réseau, même dans les premiers étages à haute résolution. Nous démontrons l’efficacité de notre modèle sur une large gamme de tâches visuelles. En classification d’images, MaxViT atteint des performances de pointe dans diverses configurations : sans données supplémentaires, il obtient une précision top-1 de 86,5 % sur ImageNet-1K ; avec une pré-formation sur ImageNet-21K, notre modèle atteint 88,7 % de précision top-1. Pour les tâches en aval, MaxViT, en tant que modèle de base, se distingue par de bonnes performances en détection d’objets ainsi qu’en évaluation esthétique visuelle. Nous montrons également que notre modèle possède une forte capacité de modélisation générative sur ImageNet, mettant en évidence le potentiel supérieur des blocs MaxViT comme module universel pour la vision. Le code source et les modèles entraînés seront disponibles à l’adresse suivante : https://github.com/google-research/maxvit.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MaxViT : Vision Transformer à Axes Multiples | Articles | HyperAI