HyperAIHyperAI
il y a 18 jours

Représentations discrètes renforcent la robustesse des Vision Transformers

Chengzhi Mao, Lu Jiang, Mostafa Dehghani, Carl Vondrick, Rahul Sukthankar, Irfan Essa
Représentations discrètes renforcent la robustesse des Vision Transformers
Résumé

Vision Transformer (ViT) émerge comme l’architecture de pointe pour la reconnaissance d’images. Bien que des études récentes suggèrent que les ViT sont plus robustes que leurs homologues basés sur les convolutions, nos expériences montrent que les ViT entraînés sur ImageNet dépendent excessivement des textures locales et ne tirent pas un usage adéquat des informations de forme. Ces modèles éprouvent ainsi des difficultés à généraliser aux données réelles hors distribution. Pour remédier à cette faiblesse, nous proposons une modification simple et efficace de la couche d’entrée du ViT, en ajoutant des tokens discrets générés par un encodeur vector-quantifié. Contrairement aux tokens continus issus des pixels standards, les tokens discrets sont invariants face aux petites perturbations et contiennent individuellement moins d’information, ce qui incite le ViT à apprendre des informations globales invariants. Les résultats expérimentaux démontrent que l’ajout de cette représentation discrète sur quatre variantes d’architecture renforce la robustesse du ViT jusqu’à 12 % sur sept benchmarks de robustesse ImageNet, tout en préservant les performances sur ImageNet.