il y a 2 mois

Propriétés Émergentes dans les Transformers de Vision Auto-Supervisés

Mathilde Caron; Hugo Touvron; Ishan Misra; Hervé Jégou; Julien Mairal; Piotr Bojanowski; Armand Joulin

Résumé

Dans cet article, nous remettons en question si l'apprentissage auto-supervisé confère à la Vision Transformer (ViT) des propriétés nouvelles qui se distinguent par rapport aux réseaux de neurones convolutionnels (convnets). Au-delà du fait que l'adaptation des méthodes d'apprentissage auto-supervisé à cette architecture fonctionne particulièrement bien, nous faisons les observations suivantes : premièrement, les caractéristiques auto-supervisées de la ViT contiennent des informations explicites sur le découpage sémantique d'une image, ce qui n'émerge pas aussi clairement avec les ViTs supervisées ni avec les convnets. Deuxièmement, ces caractéristiques sont également d'excellents classifieurs k-NN, atteignant 78,3 % de précision en classement premier sur ImageNet avec une petite ViT. Notre étude souligne également l'importance de l'encodeur à momentum, de l'entraînement multi-coupe et de l'utilisation de petits patchs avec les ViTs. Nous mettons en œuvre nos constatations dans une méthode d'apprentissage auto-supervisé simple, appelée DINO, que nous interprétons comme une forme de distillation auto sans étiquettes. Nous démontrons la synergie entre DINO et les ViTs en atteignant 80,1 % de précision en classement premier sur ImageNet lors de l'évaluation linéaire avec ViT-Base.