HyperAIHyperAI

Command Palette

Search for a command to run...

Propriétés Émergentes dans les Transformers de Vision Auto-Supervisés

Mathilde Caron Hugo Touvron Ishan Misra Hervé Jegou Julien Mairal Piotr Bojanowski Armand Joulin

Résumé

Dans cet article, nous remettons en question si l'apprentissage auto-supervisé confère à la Vision Transformer (ViT) des propriétés nouvelles qui se distinguent par rapport aux réseaux de neurones convolutionnels (convnets). Au-delà du fait que l'adaptation des méthodes d'apprentissage auto-supervisé à cette architecture fonctionne particulièrement bien, nous faisons les observations suivantes : premièrement, les caractéristiques auto-supervisées de la ViT contiennent des informations explicites sur le découpage sémantique d'une image, ce qui n'émerge pas aussi clairement avec les ViTs supervisées ni avec les convnets. Deuxièmement, ces caractéristiques sont également d'excellents classifieurs k-NN, atteignant 78,3 % de précision en classement premier sur ImageNet avec une petite ViT. Notre étude souligne également l'importance de l'encodeur à momentum, de l'entraînement multi-coupe et de l'utilisation de petits patchs avec les ViTs. Nous mettons en œuvre nos constatations dans une méthode d'apprentissage auto-supervisé simple, appelée DINO, que nous interprétons comme une forme de distillation auto sans étiquettes. Nous démontrons la synergie entre DINO et les ViTs en atteignant 80,1 % de précision en classement premier sur ImageNet lors de l'évaluation linéaire avec ViT-Base.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp