DCSAU-Net : Un U-Net à attention par division plus profond et plus compact pour la segmentation d'images médicales

L’architecture d’apprentissage profond basée sur les réseaux de neurones convolutifs (CNN) a connu un succès remarquable dans le domaine de la vision par ordinateur. L’U-Net, une architecture à encodeur-décodage fondée sur les CNN, a marqué une avancée majeure dans la segmentation d’images biomédicales et est désormais appliquée dans de nombreux scénarios pratiques. Toutefois, la conception uniforme de chaque couche de sous-échantillonnage dans la partie encodeur ainsi que l’empilement simple de couches convolutives ne permettent pas à U-Net d’extraire efficacement des informations de caractéristiques provenant de profondeurs variées. La complexité croissante des images médicales pose de nouveaux défis aux méthodes existantes. Dans cet article, nous proposons un réseau plus profond et plus compact à forme en U à attention fractionnée (DCSAU-Net), qui exploite de manière efficace les informations sémantiques de basse et haute niveau grâce à deux nouveaux cadres : la conservation des caractéristiques primaires et le bloc d’attention fractionnée compacte. Nous évaluons le modèle proposé sur les jeux de données CVC-ClinicDB, Data Science Bowl 2018, ISIC-2018 et SegPC-2021. Les résultats montrent que DCSAU-Net surpasse les méthodes de pointe (SOTA) existantes en termes de moyenne de l’intersection sur union (mIoU) et de score F1. Plus significativement, le modèle proposé démontre une excellente performance de segmentation sur des images particulièrement difficiles. Le code de notre travail ainsi que des détails techniques supplémentaires sont disponibles à l’adresse suivante : https://github.com/xq141839/DCSAU-Net.