il y a 17 jours

Trois choses que tout le monde devrait savoir sur les Vision Transformers

Hugo Touvron, Matthieu Cord, Alaaeldin El-Nouby, Jakob Verbeek, Hervé Jégou

Résumé

Après leurs succès initiaux en traitement du langage naturel, les architectures de type transformateur ont connu une adoption rapide en vision par ordinateur, offrant des résultats de pointe pour des tâches telles que la classification d’images, la détection, la segmentation et l’analyse vidéo. Nous présentons trois observations fondées sur des variantes simples et faciles à implémenter des transformateurs pour la vision. (1) Les couches résiduelles des transformateurs pour la vision, généralement traitées séquentiellement, peuvent être partiellement traitées en parallèle sans affecter significativement la précision. (2) Il est suffisant de fine-tuner les poids des couches d’attention pour adapter les transformateurs pour la vision à une résolution plus élevée et à d’autres tâches de classification. Cette approche réduit la charge computationnelle, diminue la consommation mémoire maximale lors du fine-tuning, et permet de partager la majeure partie des poids entre différentes tâches. (3) L’ajout de couches de prétraitement des patchs basées sur des réseaux de perception multi-couches (MLP) améliore l’apprentissage auto-supervisé de type Bert fondé sur le masquage de patchs. Nous évaluons l’impact de ces choix architecturaux à l’aide du jeu de données ImageNet-1k, et confirmons nos résultats sur l’ensemble de test ImageNet-v2. La performance en transfert est mesurée sur six jeux de données plus petits.