HyperAIHyperAI

Command Palette

Search for a command to run...

Trois choses que tout le monde devrait savoir sur les Vision Transformers

Hugo Touvron Matthieu Cord Alaaeldin El-Nouby Jakob Verbeek Hervé Jégou

Résumé

Après leurs succès initiaux en traitement du langage naturel, les architectures de type transformateur ont connu une adoption rapide en vision par ordinateur, offrant des résultats de pointe pour des tâches telles que la classification d’images, la détection, la segmentation et l’analyse vidéo. Nous présentons trois observations fondées sur des variantes simples et faciles à implémenter des transformateurs pour la vision. (1) Les couches résiduelles des transformateurs pour la vision, généralement traitées séquentiellement, peuvent être partiellement traitées en parallèle sans affecter significativement la précision. (2) Il est suffisant de fine-tuner les poids des couches d’attention pour adapter les transformateurs pour la vision à une résolution plus élevée et à d’autres tâches de classification. Cette approche réduit la charge computationnelle, diminue la consommation mémoire maximale lors du fine-tuning, et permet de partager la majeure partie des poids entre différentes tâches. (3) L’ajout de couches de prétraitement des patchs basées sur des réseaux de perception multi-couches (MLP) améliore l’apprentissage auto-supervisé de type Bert fondé sur le masquage de patchs. Nous évaluons l’impact de ces choix architecturaux à l’aide du jeu de données ImageNet-1k, et confirmons nos résultats sur l’ensemble de test ImageNet-v2. La performance en transfert est mesurée sur six jeux de données plus petits.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Trois choses que tout le monde devrait savoir sur les Vision Transformers | Articles | HyperAI