Jigsaw-ViT : Apprentissage de puzzles de type jigsaw dans les Vision Transformers

Le succès du Vision Transformer (ViT) dans diverses tâches de vision par ordinateur a favorisé une adoption croissante de ce réseau dépourvu de convolution. Le fait que le ViT opère sur des patches d’image le rend potentiellement pertinent pour le problème de résolution de puzzles de type « jigsaw », une tâche classique d’apprentissage auto-supervisé visant à réordonner des patches d’image mélangés dans leur configuration naturelle. Malgré sa simplicité, la résolution de puzzles de type jigsaw a été démontrée comme bénéfique pour de nombreuses tâches utilisant les réseaux de neurones convolutifs (CNN), telles que l’apprentissage de représentations fonctionnelles auto-supervisées, la généralisation de domaine ou la classification fine.Dans cet article, nous explorons la résolution de puzzles de type jigsaw comme une perte auxiliaire auto-supervisée dans le cadre du ViT pour la classification d’images, que nous nommons Jigsaw-ViT. Nous montrons deux modifications simples pouvant rendre Jigsaw-ViT supérieur au ViT standard : l’abandon des embeddings de position et le masquage aléatoire des patches. Bien que simples, ces ajustements permettent à Jigsaw-ViT d’améliorer à la fois la généralisation et la robustesse par rapport au ViT standard, qui est généralement confronté à un compromis entre ces deux aspects. Expérimentalement, nous démontrons qu’ajouter une branche de puzzle de type jigsaw améliore la généralisation par rapport au ViT sur des tâches de classification d’images à grande échelle sur ImageNet. En outre, cette tâche auxiliaire améliore également la robustesse aux étiquettes bruitées sur Animal-10N, Food-101N et Clothing1M, ainsi qu’aux exemples adverses. Notre implémentation est disponible à l’adresse suivante : https://yingyichen-cyy.github.io/Jigsaw-ViT/.