MaxViT-UNet : Attention multi-axe pour la segmentation d'images médicales

Depuis leur émergence, les Réseaux Neuronaux Convolutifs (CNNs) ont réalisé des progrès significatifs dans l'analyse d'images médicales. Cependant, la nature locale de l'opérateur de convolution peut poser une limitation pour capturer les interactions globales et à longue portée dans les CNNs. Récemment, les Transformers ont gagné en popularité au sein de la communauté de la vision par ordinateur et également dans le domaine du segmention d'images médicales grâce à leur capacité à traiter efficacement les caractéristiques globales. Les problèmes de scalabilité du mécanisme d'auto-attention et l'absence d'un biais inductif similaire à celui des CNNs peuvent avoir limité leur adoption. Par conséquent, les Transformers hybrides pour la vision (CNN-Transformer) qui exploitent les avantages des deux mécanismes, convolutif et d'auto-attention, ont acquis une importance croissante.Dans cette étude, nous présentons MaxViT-UNet, un nouveau modèle de type UNet basé sur un encodeur-décodeur hybride pour le segmention d'images médicales (CNN-Transformer). Le décodeur hybride proposé est conçu pour tirer parti des capacités des opérations de convolution et d'auto-attention à chaque stade du décodage avec une charge mémoire et computationnelle minimale. L'intégration de l'auto-attention multi-axes au sein de chaque stade du décodeur améliore considérablement la capacité de discrimination entre les régions objet et arrière-plan, ce qui contribue à améliorer l'efficacité du segmention.Dans le décodeur hybride, un nouveau bloc est également proposé. Le processus de fusion commence par l'intégration des caractéristiques du décodeur de niveau inférieur upsampled, obtenues par convolution transposée, avec les caractéristiques issues des connexions résiduelles provenant de l'encodeur hybride. Ensuite, les caractéristiques fusionnées sont raffinées grâce à l'utilisation d'un mécanisme d'attention multi-axes. Le bloc de décodeur proposé est répété plusieurs fois pour segmenter progressivement les régions nucléaires.Les résultats expérimentaux sur les jeux de données MoNuSeg18 et MoNuSAC20 démontrent l’efficacité de la technique proposée.