Swin Transformer V2 : Augmentation de la capacité et de la résolution

Les modèles de traitement du langage naturel à grande échelle ont démontré une amélioration significative des performances sur les tâches linguistiques, sans signes de saturation. Ils présentent également des capacités impressionnantes en few-shot learning, similaires à celles des êtres humains. Ce papier vise à explorer les modèles à grande échelle dans le domaine de la vision par ordinateur. Nous abordons trois problèmes majeurs liés à l'entraînement et à l'application des grands modèles de vision : instabilité d'entraînement, écart de résolution entre la phase de pré-entraînement et celle de fine-tuning, ainsi que la forte dépendance aux données étiquetées. Trois techniques principales sont proposées : 1) une méthode résiduelle post-norme combinée à une attention cosinus pour améliorer la stabilité d'entraînement ; 2) une méthode de biais de position continue à espacement logarithmique, permettant une transférabilité efficace des modèles pré-entraînés sur des images de faible résolution vers des tâches en aval avec des entrées à haute résolution ; 3) une méthode de pré-entraînement auto-supervisé, SimMIM, visant à réduire la dépendance aux grandes quantités d'images étiquetées. Grâce à ces techniques, ce travail parvient à entraîner un modèle Swin Transformer V2 de 3 milliards de paramètres, le plus grand modèle dense de vision à ce jour, capable d'accepter des images de résolution allant jusqu'à 1 536×1 536. Ce modèle établit de nouveaux records de performance sur quatre tâches représentatives de la vision : classification d'images sur ImageNet-V2, détection d'objets sur COCO, segmentation sémantique sur ADE20K, et classification d'actions vidéo sur Kinetics-400. Par ailleurs, notre méthode d'entraînement est bien plus efficace que celle des modèles visuels à l'échelle du milliard développés par Google : elle nécessite 40 fois moins de données étiquetées et 40 fois moins de temps d'entraînement. Le code est disponible à l'adresse suivante : \url{https://github.com/microsoft/Swin-Transformer}.