DuAT : Réseau Transformer à double agrégation pour la segmentation d’images médicales

Les modèles basés sur Transformer ont été largement démontrés efficaces dans les tâches de vision par ordinateur grâce à leur capacité à modéliser des dépendances à longue portée et à capturer des représentations globales. Toutefois, ils sont souvent dominés par les caractéristiques des grandes structures, entraînant une perte de détails locaux (par exemple, les contours et les objets de petite taille), qui sont critiques pour la segmentation d’images médicales. Pour atténuer ce problème, nous proposons un réseau Transformer à double agrégation, appelé DuAT, caractérisé par deux innovations : le module d’agrégation spatiale Global-to-Local (GLSA) et le module d’agrégation sélective des frontières (SBA). Le module GLSA permet d’agrégérer et de représenter à la fois les caractéristiques spatiales globales et locales, ce qui est avantageux respectivement pour localiser les objets de grande et de petite taille. Le module SBA agrège les caractéristiques de frontière issues des features de bas niveau et les informations sémantiques provenant des features de haut niveau, afin de mieux préserver les détails des contours et de réajuster la localisation des objets. Des expériences étendues sur six jeux de données de référence montrent que notre modèle surpasser les méthodes de pointe dans la segmentation des lésions cutanées et des polypes dans les images de coloscopie. En outre, notre approche s’avère plus robuste que les méthodes existantes dans diverses situations difficiles, telles que la segmentation d’objets de petite taille ou la détection de frontières ambigües.