UCTransNet : Réexaminer les connexions résiduelles dans U-Net sous l'angle des canaux avec le Transformer

La plupart des méthodes de segmentation sémantique les plus récentes adoptent un cadre U-Net avec une architecture encodeur-décodeur. Il reste cependant difficile pour un U-Net avec un schéma de connexion de saut simple de modéliser le contexte multi-échelle global : 1) Tous les paramètres de connexion de saut ne sont pas efficaces en raison du problème d'incompatibilité des ensembles de caractéristiques entre les étapes d'encodeur et de décodeur, certaines connexions de saut ayant même un effet négatif sur la performance de segmentation ; 2) L'U-Net original est parfois moins performant que celui sans aucune connexion de saut sur certains jeux de données. Sur la base de nos observations, nous proposons un nouveau cadre de segmentation, nommé UCTransNet (avec un module CTrans proposé dans l'U-Net), qui adopte une perspective axée sur les canaux et intègre un mécanisme d'attention. Plus précisément, le module CTrans remplace les connexions de saut classiques dans l'U-Net et se compose d'un sous-module pour réaliser la fusion multi-échelle des canaux avec un Transformers (nommé CCT) et d'un sous-module d'attention croisée par canal (nommé CCA) pour guider l'information multi-échelle fusionnée à travers les canaux vers une connexion efficace aux caractéristiques du décodeur, éliminant ainsi toute ambiguïté. Par conséquent, la connexion proposée, composée du CCT et du CCA, peut remplacer la connexion de saut originale pour résoudre les écarts sémantiques et assurer une segmentation automatique précise des images médicales. Les résultats expérimentaux indiquent que notre UCTransNet offre une performance de segmentation plus précise et réalise des améliorations constantes par rapport à l'état de l'art pour la segmentation sémantique sur différents jeux de données et architectures conventionnelles impliquant des Transformers ou une structure en forme de U. Code : https://github.com/McGregorWwww/UCTransNet.