Amélioration des Vision Transformers par une nouvelle exploration des composantes à haute fréquence

Les modèles de type Transformer ont démontré une efficacité prometteuse dans le traitement de diverses tâches visuelles. Toutefois, en comparaison avec l’entraînement des modèles de réseaux de neurones convolutifs (CNN), l’entraînement des modèles Vision Transformer (ViT) s’avère plus difficile et dépend fortement de jeux de données d’entraînement à grande échelle. Pour expliquer cette observation, nous formulons l’hypothèse selon laquelle les modèles ViT sont moins efficaces que les modèles CNN pour capturer les composantes à haute fréquence des images, et nous la validons à l’aide d’une analyse fréquentielle. Inspirés par ce résultat, nous examinons d’abord les effets des techniques existantes visant à améliorer les modèles ViT sous un nouvel angle fréquentiel, et constatons que le succès de certaines d’entre elles (par exemple RandAugment) peut être attribué à une meilleure exploitation des composantes à haute fréquence. Afin de compenser cette faiblesse inhérente des modèles ViT, nous proposons HAT, une méthode qui enrichit directement les composantes à haute fréquence des images via une entraînement adversarial. Nous démontrons que HAT améliore de manière cohérente les performances de divers modèles ViT (par exemple +1,2 % pour ViT-B, +0,5 % pour Swin-B), et améliore particulièrement le modèle avancé VOLO-D5 jusqu’à 87,3 %, en utilisant uniquement les données ImageNet-1K, tout en maintenant une supériorité significative sur des données hors distribution et en transférant efficacement ces gains vers des tâches en aval. Le code est disponible à l’adresse suivante : https://github.com/jiawangbai/HAT.