HyperAIHyperAI
il y a 17 jours

DeiT III : La revanche du ViT

Hugo Touvron, Matthieu Cord, Hervé Jégou
DeiT III : La revanche du ViT
Résumé

Un Vision Transformer (ViT) est une architecture neuronale simple, adaptée à la réalisation de plusieurs tâches en vision par ordinateur. Contrairement aux architectures plus récentes qui intègrent des connaissances a priori sur les données d’entrée ou sur des tâches spécifiques, le ViT possède des préconceptions architecturales limitées. Des travaux récents montrent que les ViT bénéficient fortement de l’entraînement auto-supervisé, notamment par des méthodes du type BerT, comme BeiT. Dans ce papier, nous revisitons l’entraînement supervisé des ViT. Notre procédure s’inspire et simplifie une recette proposée initialement pour entraîner un ResNet-50. Elle inclut une nouvelle procédure de data-augmentation simplifiée, n’utilisant que trois transformations, plus proche des pratiques adoptées dans l’apprentissage auto-supervisé. Nos évaluations sur la classification d’images (ImageNet-1k, avec et sans pré-entraînement sur ImageNet-21k), le transfert d’apprentissage et la segmentation sémantique montrent que notre méthode surpasser largement les anciennes recettes d’entraînement entièrement supervisées pour les ViT. Elle révèle également que les performances de notre ViT entraîné sous supervision sont comparables à celles des architectures plus récentes. Nos résultats peuvent servir de références améliorées pour les approches auto-supervisées récentes démontrées sur les ViT.