Swin-Unet : Unet-like Pure Transformer pour la segmentation d'images médicales

Au cours des dernières années, les réseaux neuronaux convolutifs (CNN) ont marqué des avancées majeures dans l’analyse d’images médicales. En particulier, les réseaux neuronaux profonds basés sur une architecture en forme de U et sur des connexions de saut (skip-connections) ont été largement appliqués à diverses tâches d’images médicales. Toutefois, bien que les CNN atteignent des performances remarquables, ils peinent à capturer efficacement les interactions sémantiques globales et à longue portée en raison de la nature locale de l’opération de convolution. Dans cet article, nous proposons Swin-Unet, un modèle de type Unet fondé exclusivement sur un Transformer pour la segmentation d’images médicales. Les patches d’image tokenisés sont introduits dans une architecture Encoder-Décoder en forme de U, basée sur un Transformer et dotée de connexions de saut, afin d’apprendre des caractéristiques sémantiques locales et globales. Plus précisément, nous utilisons un Transformer hiérarchique Swin avec fenêtres décalées comme encodeur pour extraire des caractéristiques contextuelles. Un décodeur symétrique basé sur un Transformer Swin, comprenant une couche d’expansion de patchs, est conçu pour effectuer l’opération d’interpolation afin de restaurer la résolution spatiale des cartes de caractéristiques. En effectuant un redimensionnement direct des entrées et sorties par un facteur 4, les expériences menées sur des tâches de segmentation multi-organes et cardiaque démontrent que le réseau Encoder-Décoder en forme de U fondé exclusivement sur un Transformer surpasse les méthodes basées sur la convolution complète ou sur la combinaison de Transformers et de convolutions. Les codes source et les modèles entraînés seront rendus accessibles au public à l’adresse suivante : https://github.com/HuCaoFighting/Swin-Unet.