Les Transformers sont-ils plus robustes que les CNNs ?

Le modèle Transformer émerge comme un outil puissant pour la reconnaissance visuelle. En plus de démontrer des performances compétitives sur une large gamme de benchmarks visuels, des travaux récents affirment également que les Transformers sont nettement plus robustes que les réseaux de neurones convolutifs (CNNs). Toutefois, de manière surprenante, nous constatons que ces conclusions sont tirées à partir de conditions expérimentales biaisées, où les Transformers et les CNNs sont comparés à des échelles différentes et appliqués avec des cadres d'entraînement distincts. Dans ce papier, nous visons à proposer les premières comparaisons justes et approfondies entre Transformers et CNNs, en nous concentrant spécifiquement sur l'évaluation de la robustesse.Grâce à notre cadre d'entraînement unifié, nous remettons d'abord en question l'idée reçue selon laquelle les Transformers surpassent les CNNs en matière de robustesse contre les attaques adverses. Plus surprenant encore, nous constatons que les CNNs peuvent facilement atteindre un niveau de robustesse équivalent à celui des Transformers, à condition qu'ils adoptent correctement les recettes d'entraînement propres aux Transformers. En ce qui concerne la généralisation sur des échantillons hors distribution, nous montrons que le pré-entraînement sur des grands jeux de données externes (à grande échelle) n'est pas une condition fondamentale pour permettre aux Transformers d'obtenir de meilleures performances que les CNNs. En outre, nos analyses ablatives suggèrent que cette meilleure généralisation provient principalement de l'architecture auto-attention inhérente aux Transformers, plutôt que des autres aspects du processus d'entraînement. Nous espérons que ce travail aidera la communauté à mieux comprendre et à mieux évaluer la robustesse des Transformers et des CNNs. Le code et les modèles sont disponibles publiquement à l'adresse suivante : https://github.com/ytongbai/ViTs-vs-CNNs.