Compréhension de la robustesse dans les Vision Transformers

Des études récentes montrent que les Vision Transformers (ViTs) présentent une robustesse remarquable face à divers types de dégradations. Bien que cette propriété soit en partie due au mécanisme d’attention auto-associative, une compréhension systématique reste encore insuffisante. Dans cet article, nous examinons le rôle de l’attention auto-associative dans l’apprentissage de représentations robustes. Notre travail s’inspire des propriétés intrigantes du regroupement visuel émergent dans les Vision Transformers, qui suggèrent que l’attention auto-associative pourrait renforcer la robustesse via des représentations de niveau intermédiaire améliorées. Nous proposons par ailleurs une famille de réseaux entièrement basés sur l’attention, appelés FANs (Fully Attentional Networks), qui renforcent cette capacité grâce à une architecture de traitement par canaux fondée sur l’attention. Nous validons ce design de manière exhaustive sur plusieurs architectures hiérarchiques. Notre modèle atteint une précision de 87,1 % et un mCE de 35,8 % sur ImageNet-1k et ImageNet-C respectivement, avec 76,8 millions de paramètres. Nous démontrons également des performances de pointe en précision et robustesse sur deux tâches en aval : la segmentation sémantique et la détection d’objets. Le code est disponible à l’adresse suivante : https://github.com/NVlabs/FAN.