HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage par résidus d’image masquée pour le dimensionnement de vision Transformers plus profonds

Guoxi Huang Hongtao Fu Adrian G. Bors

Résumé

Les Transformers de vision (ViT) plus profonds sont plus difficiles à entraîner. Nous mettons en évidence un problème de dégradation dans les couches les plus profondes des ViT lorsqu’on utilise le modèle d’image masquée (MIM) pour l’apprentissage préalable. Pour faciliter l’entraînement des ViT plus profonds, nous introduisons un cadre d’apprentissage auto-supervisé appelé Masked Image Residual Learning (MIRL), qui atténue significativement ce problème de dégradation, rendant l’extension de la profondeur des ViT une voie prometteuse pour améliorer les performances. Nous reformulons l’objectif d’apprentissage préalable des couches profondes des ViT comme l’apprentissage de la reconstruction du résidu de l’image masquée. Nous fournissons des preuves empiriques étendues démontrant que les ViT plus profonds peuvent être efficacement optimisés grâce à MIRL et bénéficient facilement d’une amélioration de précision avec une augmentation de profondeur. Avec un niveau de complexité computationnelle équivalent à celui de ViT-Base et ViT-Large, nous instancions des ViT 4,5× et 2× plus profonds, respectivement nommés ViT-S-54 et ViT-B-48. Le ViT-S-54 plus profond, coûtant 3× moins que ViT-Large, atteint des performances comparables à celles de ViT-Large. Le ViT-B-48 atteint une précision top-1 de 86,2 % sur ImageNet. D’une part, les ViT plus profonds pré-entraînés avec MIRL montrent une excellente capacité de généralisation sur des tâches en aval, telles que la détection d’objets et la segmentation sémantique. D’autre part, MIRL démontre une haute efficacité d’apprentissage préalable : avec un temps de pré-entraînement réduit, MIRL produit des performances compétitives par rapport à d’autres approches.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp