HyperAIHyperAI

Command Palette

Search for a command to run...

DeiT III : La revanche du ViT

Hugo Touvron Matthieu Cord Hervé Jégou

Résumé

Un Vision Transformer (ViT) est une architecture neuronale simple, adaptée à la réalisation de plusieurs tâches en vision par ordinateur. Contrairement aux architectures plus récentes qui intègrent des connaissances a priori sur les données d’entrée ou sur des tâches spécifiques, le ViT possède des préconceptions architecturales limitées. Des travaux récents montrent que les ViT bénéficient fortement de l’entraînement auto-supervisé, notamment par des méthodes du type BerT, comme BeiT. Dans ce papier, nous revisitons l’entraînement supervisé des ViT. Notre procédure s’inspire et simplifie une recette proposée initialement pour entraîner un ResNet-50. Elle inclut une nouvelle procédure de data-augmentation simplifiée, n’utilisant que trois transformations, plus proche des pratiques adoptées dans l’apprentissage auto-supervisé. Nos évaluations sur la classification d’images (ImageNet-1k, avec et sans pré-entraînement sur ImageNet-21k), le transfert d’apprentissage et la segmentation sémantique montrent que notre méthode surpasser largement les anciennes recettes d’entraînement entièrement supervisées pour les ViT. Elle révèle également que les performances de notre ViT entraîné sous supervision sont comparables à celles des architectures plus récentes. Nos résultats peuvent servir de références améliorées pour les approches auto-supervisées récentes démontrées sur les ViT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp