Une étude empirique de l'entraînement des Vision Transformers auto-supervisés

Ce papier ne décrit pas une nouvelle méthode, mais étudie une base linéaire simple, incrémentale et néanmoins essentielle à connaître, compte tenu des progrès récents en vision par ordinateur : l’apprentissage auto-supervisé pour les Transformateurs de vision (Vision Transformers, ViT). Alors que les recettes d’entraînement pour les réseaux de convolution standard sont désormais très mûres et robustes, celles destinées aux ViT restent à élaborer, en particulier dans les scénarios d’apprentissage auto-supervisé, où l’entraînement devient bien plus complexe. Dans ce travail, nous revenons aux fondamentaux et examinons l’impact de plusieurs composants fondamentaux dans l’entraînement des ViT auto-supervisés. Nous constatons que l’instabilité est un problème majeur qui dégrade la précision, et qui peut être masquée par des résultats apparemment satisfaisants. Nous montrons que ces résultats ne sont en réalité que des échecs partiels, et qu’ils peuvent être améliorés lorsque l’entraînement est rendu plus stable. Nous établissons une comparaison (benchmark) des performances des ViT dans MoCo v3 et dans plusieurs autres cadres d’apprentissage auto-supervisé, accompagnée d’analyses d’ablation sur divers aspects. Nous discutons des preuves actuellement positives, ainsi que des défis et des questions ouvertes. Nous espérons que ce travail fournira des points de données et une expérience utiles pour les recherches futures.