Trans2Unet : Fusion neurale pour la segmentation sémantique des noyaux

La segmentation des noyaux, malgré son rôle fondamental dans l’analyse d’images histopathologiques, reste un défi majeur. Le principal obstacle de cette tâche réside dans la présence de zones de superposition, qui compliquent considérablement la séparation des noyaux indépendants. Dans cet article, nous proposons une nouvelle architecture à deux branches, combinant les réseaux Unet et TransUnet, pour la segmentation des noyaux. Dans l’architecture proposée, nommée Trans2Unet, l’image d’entrée est d’abord transmise à la branche Unet, dont la dernière couche convolutive est supprimée. Cette branche permet au réseau de combiner des caractéristiques provenant de différentes régions spatiales de l’image d’entrée et de localiser plus précisément les régions d’intérêt. L’image d’entrée est également envoyée dans la deuxième branche, appelée branche TransUnet, où elle est divisée en patches d’images. Grâce à l’architecture Vision Transformer (ViT), TransUnet peut agir comme un encodeur puissant pour les tâches de segmentation d’images médicales et améliorer les détails de l’image en récupérant des informations spatiales localisées. Pour renforcer l’efficacité et les performances de Trans2Unet, nous proposons d’intégrer à TransUnet un module à faible coût computationnel, nommé « Waterfall » Atrous Spatial Pooling avec connexion de saut (WASP-KC), inspiré du module « Waterfall » Atrous Spatial Pooling (WASP). Les résultats expérimentaux sur le benchmark Data Science Bowl 2018 démontrent l’efficacité et la performance de l’architecture proposée par rapport aux modèles de segmentation antérieurs.