HyperAIHyperAI
il y a 17 jours

TransUNet : Les Transformers constituent de puissants encodeurs pour la segmentation d’images médicales

Jieneng Chen, Yongyi Lu, Qihang Yu, Xiangde Luo, Ehsan Adeli, Yan Wang, Le Lu, Alan L. Yuille, Yuyin Zhou
TransUNet : Les Transformers constituent de puissants encodeurs pour la segmentation d’images médicales
Résumé

La segmentation d’images médicales constitue un prérequis essentiel dans le développement de systèmes de santé, en particulier pour le diagnostic des maladies et la planification des traitements. Sur diverses tâches de segmentation d’images médicales, l’architecture en forme de U, également connue sous le nom de U-Net, est devenue la norme de facto et a remporté un succès considérable. Toutefois, en raison de la localité intrinsèque des opérations de convolution, U-Net présente généralement des limites dans la modélisation explicite des dépendances à longue portée. Les Transformers, conçus pour les tâches de prédiction séquence à séquence, se sont imposés comme des architectures alternatives grâce à leurs mécanismes d’attention auto-globale inhérents, mais peuvent souffrir d’une capacité de localisation limitée en raison d’un manque de détails de bas niveau. Dans ce travail, nous proposons TransUNet, une architecture qui combine les forces des Transformers et de U-Net, offrant ainsi une alternative puissante pour la segmentation d’images médicales. D’un côté, le Transformer encode les patches d’image tokenisés extraits à partir d’une carte de caractéristiques d’un réseau de neurones convolutifs (CNN) comme séquence d’entrée afin d’extraire des contextes globaux. De l’autre côté, le décodeur redimensionne les caractéristiques encodées, qui sont ensuite combinées aux cartes de caractéristiques CNN à haute résolution pour assurer une localisation précise. Nous soutenons que les Transformers peuvent servir de encodeurs puissants pour les tâches de segmentation d’images médicales, en s’appuyant sur la structure U-Net pour améliorer les détails fins grâce au recouvrement des informations spatiales localisées. TransUNet atteint des performances supérieures par rapport à plusieurs méthodes concurrentes sur diverses applications médicales, notamment la segmentation multi-organes et la segmentation cardiaque. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/Beckschen/TransUNet.