Apprentissage par résidus d’image masquée pour le dimensionnement de vision Transformers plus profonds

Les Transformers de vision (ViT) plus profonds sont plus difficiles à entraîner. Nous mettons en évidence un problème de dégradation dans les couches les plus profondes des ViT lorsqu’on utilise le modèle d’image masquée (MIM) pour l’apprentissage préalable. Pour faciliter l’entraînement des ViT plus profonds, nous introduisons un cadre d’apprentissage auto-supervisé appelé Masked Image Residual Learning (MIRL), qui atténue significativement ce problème de dégradation, rendant l’extension de la profondeur des ViT une voie prometteuse pour améliorer les performances. Nous reformulons l’objectif d’apprentissage préalable des couches profondes des ViT comme l’apprentissage de la reconstruction du résidu de l’image masquée. Nous fournissons des preuves empiriques étendues démontrant que les ViT plus profonds peuvent être efficacement optimisés grâce à MIRL et bénéficient facilement d’une amélioration de précision avec une augmentation de profondeur. Avec un niveau de complexité computationnelle équivalent à celui de ViT-Base et ViT-Large, nous instancions des ViT 4,5× et 2× plus profonds, respectivement nommés ViT-S-54 et ViT-B-48. Le ViT-S-54 plus profond, coûtant 3× moins que ViT-Large, atteint des performances comparables à celles de ViT-Large. Le ViT-B-48 atteint une précision top-1 de 86,2 % sur ImageNet. D’une part, les ViT plus profonds pré-entraînés avec MIRL montrent une excellente capacité de généralisation sur des tâches en aval, telles que la détection d’objets et la segmentation sémantique. D’autre part, MIRL démontre une haute efficacité d’apprentissage préalable : avec un temps de pré-entraînement réduit, MIRL produit des performances compétitives par rapport à d’autres approches.