HyperAIHyperAI

Command Palette

Search for a command to run...

Compréhension de la robustesse dans les Vision Transformers

Daquan Zhou Zhiding Yu Enze Xie Chaowei Xiao Anima Anandkumar Jiashi Feng Jose M. Alvarez

Résumé

Des études récentes montrent que les Vision Transformers (ViTs) présentent une robustesse remarquable face à divers types de dégradations. Bien que cette propriété soit en partie due au mécanisme d’attention auto-associative, une compréhension systématique reste encore insuffisante. Dans cet article, nous examinons le rôle de l’attention auto-associative dans l’apprentissage de représentations robustes. Notre travail s’inspire des propriétés intrigantes du regroupement visuel émergent dans les Vision Transformers, qui suggèrent que l’attention auto-associative pourrait renforcer la robustesse via des représentations de niveau intermédiaire améliorées. Nous proposons par ailleurs une famille de réseaux entièrement basés sur l’attention, appelés FANs (Fully Attentional Networks), qui renforcent cette capacité grâce à une architecture de traitement par canaux fondée sur l’attention. Nous validons ce design de manière exhaustive sur plusieurs architectures hiérarchiques. Notre modèle atteint une précision de 87,1 % et un mCE de 35,8 % sur ImageNet-1k et ImageNet-C respectivement, avec 76,8 millions de paramètres. Nous démontrons également des performances de pointe en précision et robustesse sur deux tâches en aval : la segmentation sémantique et la détection d’objets. Le code est disponible à l’adresse suivante : https://github.com/NVlabs/FAN.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp