HyperAIHyperAI
il y a 17 jours

Vers un Vision Transformer robuste

Xiaofeng Mao, Gege Qi, Yuefeng Chen, Xiaodan Li, Ranjie Duan, Shaokai Ye, Yuan He, Hui Xue
Vers un Vision Transformer robuste
Résumé

Les avancées récentes concernant les Vision Transformers (ViT) et leurs variantes améliorées ont montré que les réseaux basés sur l’attention auto-attention surpassent les réseaux de neurones convolutifs (CNN) traditionnels dans la plupart des tâches visuelles. Toutefois, les ViT existants se concentrent principalement sur la précision standard et le coût computationnel, sans explorer suffisamment l’influence intrinsèque de leurs composants sur la robustesse et la généralisation du modèle. Dans ce travail, nous menons une évaluation systématique des composants des ViT afin d’analyser leur impact sur la robustesse face aux exemples adverses, aux dégradations courantes et aux décalages de distribution. Nous constatons que certains composants peuvent en réalité nuire à la robustesse. En utilisant et en combinant des composants robustes comme éléments fondamentaux des ViT, nous proposons un nouveau modèle appelé Robust Vision Transformer (RVT), qui présente des performances supérieures et une robustesse accrue. Nous introduisons également deux nouvelles techniques plug-and-play, nommées position-aware attention scaling et patch-wise augmentation, pour renforcer notre RVT, que nous désignons désormais par RVT. Les résultats expérimentaux sur ImageNet et six benchmarks de robustesse démontrent que RVT offre une robustesse et une capacité de généralisation supérieures par rapport aux ViT antérieurs ainsi qu’aux CNN les plus avancés. En outre, RVT-S atteint même le classement n°1 au classement Top-1 sur plusieurs leaderboards de robustesse, notamment ImageNet-C et ImageNet-Sketch. Le code source sera mis à disposition à l’adresse suivante : \url{https://github.com/alibaba/easyrobust}.

Vers un Vision Transformer robuste | Articles de recherche récents | HyperAI