il y a 17 jours

L'entraînement adversaire pyramidale améliore les performances des ViT

Charles Herrmann, Kyle Sargent, Lu Jiang, Ramin Zabih, Huiwen Chang, Ce Liu, Dilip Krishnan, Deqing Sun

Résumé

Une augmentation de données agressive constitue un élément clé des performances généralisées fortes du Vision Transformer (ViT). Une telle technique d’augmentation de données est l’entraînement adversaire (AT) ; toutefois, de nombreuses études antérieures ont montré qu’elle entraîne souvent une faible précision sur les données propres (clean accuracy). Dans ce travail, nous proposons une nouvelle méthode simple et efficace, appelée entraînement adversaire en pyramide (PyramidAT), visant à améliorer les performances globales du ViT. Nous l’associons à une régularisation par Dropout et par profondeur stochastique « adaptée » (matched), qui utilise la même configuration de Dropout et de profondeur stochastique pour les échantillons propres et adverses. À l’instar des améliorations observées sur les réseaux de neurones convolutifs grâce à AdvProp (non directement applicable au ViT), notre méthode PyramidAT rompt le compromis entre la précision sur les données distribuées (in-distribution) et la robustesse aux données hors distribution (out-of-distribution) pour le ViT et les architectures associées. Elle permet une amélioration absolue de 1,82 % sur la précision propre ImageNet pour le modèle ViT-B entraîné uniquement sur les données ImageNet-1K, tout en augmentant simultanément les performances sur 7 métriques de robustesse ImageNet, avec des gains absolus compris entre 1,76 % et 15,68 %. Nous établissons un nouveau record sur ImageNet-C (41,42 mCE), ImageNet-R (53,92 %) et ImageNet-Sketch (41,04 %), sans recourir à des données supplémentaires, en utilisant uniquement le modèle de base ViT-B/16 et notre technique PyramidAT. Le code source est disponible publiquement à l’adresse pyramidat.github.io.