il y a 17 jours

Réseaux entièrement attentionnels avec étiquetage de tokens émergent autonome

Bingyin Zhao, Zhiding Yu, Shiyi Lan, Yutao Cheng, Anima Anandkumar, Yingjie Lao, Jose M. Alvarez

Résumé

Des études récentes indiquent que les Vision Transformers (ViTs) présentent une robustesse notable face aux scénarios hors distribution. En particulier, le Fully Attentional Network (FAN), une famille d'architectures de base pour ViT, a atteint un niveau de robustesse de pointe. Dans ce travail, nous revisitons les modèles FAN et améliorons leur phase de pré-entraînement grâce à un cadre de marquage automatique des tokens appelé STL (Self-Emerging Token Labeling). Notre méthode repose sur un cadre d'entraînement en deux étapes. Plus précisément, nous entraînons d'abord un modèle de marquage des tokens FAN-TL (FAN Token Labeler) afin de générer des étiquettes de patchs sémantiquement significatives, avant de procéder à une phase d'entraînement du modèle étudiant FAN, qui utilise à la fois les étiquettes de tokens ainsi générées et les étiquettes de classe originales. Grâce au cadre STL proposé, notre meilleur modèle basé sur FAN-L-Hybrid (77,3 millions de paramètres) atteint une précision Top-1 de 84,8 % et un mCE de 42,1 % sur ImageNet-1K et ImageNet-C, établissant ainsi un nouveau record sur ImageNet-A (46,1 %) et ImageNet-R (56,6 %), sans recourir à des données supplémentaires, en surpassant nettement le modèle FAN original. Le cadre proposé démontre également une amélioration significative sur des tâches en aval, telles que la segmentation sémantique, avec une augmentation pouvant atteindre 1,7 % de robustesse par rapport au modèle de référence. Le code est disponible à l'adresse suivante : https://github.com/NVlabs/STL.