Swin Transformer : Vision Transformer hiérarchique utilisant des fenêtres décalées

Cet article présente un nouveau modèle Vision Transformer, appelé Swin Transformer, qui peut servir de squelette généraliste pour la vision par ordinateur. Les défis liés à l'adaptation des Transformers du domaine du langage à celui de la vision proviennent de différences fondamentales entre ces deux domaines, notamment les grandes variations d'échelle des entités visuelles et la haute résolution des pixels dans les images par rapport aux mots dans le texte. Pour surmonter ces différences, nous proposons un Transformer hiérarchique dont la représentation est calculée à l’aide d’années décalées (Shifted Windows). Ce schéma d’années décalées permet une meilleure efficacité en limitant le calcul de l’attention auto à des fenêtres locales non chevauchantes, tout en permettant des connexions entre fenêtres. Cette architecture hiérarchique offre une grande flexibilité pour modéliser des structures à différentes échelles, tout en présentant une complexité computationnelle linéaire par rapport à la taille de l’image. Ces caractéristiques rendent Swin Transformer compatible avec une large gamme de tâches de vision, notamment la classification d’images (précision top-1 de 87,3 % sur ImageNet-1K), ainsi que des tâches de prédiction dense comme la détection d’objets (58,7 AP boîtes et 51,1 AP masques sur COCO test-dev) et la segmentation sémantique (53,5 mIoU sur ADE20K val). Ses performances dépassent largement l’état de l’art précédent, avec une amélioration de +2,7 AP boîtes et +2,6 AP masques sur COCO, ainsi que +3,2 mIoU sur ADE20K, démontrant ainsi le potentiel des modèles basés sur les Transformers comme squelettes pour la vision. Le design hiérarchique et l’approche des fenêtres décalées s’avèrent également bénéfiques pour les architectures entièrement basées sur les MLP. Le code et les modèles sont disponibles publiquement à l’adresse suivante :~\url{https://github.com/microsoft/Swin-Transformer}.