Attention auto-guidée multi-échelle pour la segmentation d'images médicales

Bien que les réseaux de neurones convolutifs (CNN) propulsent les progrès dans le domaine du segmentage d'images médicales, les modèles standards présentent encore certaines limites. Premièrement, l'utilisation d'approches multi-échelles, c'est-à-dire des architectures encodeur-décodeur, entraîne une utilisation redondante de l'information, où des caractéristiques de bas niveau similaires sont extraites plusieurs fois à différentes échelles. Deuxièmement, les dépendances de caractéristiques à longue portée ne sont pas modélisées efficacement, ce qui conduit à des représentations de caractéristiques discriminantes non optimales associées à chaque classe sémantique. Dans cet article, nous tentons de surmonter ces limitations avec l'architecture proposée, en capturant des dépendances contextuelles plus riches grâce à l'utilisation de mécanismes d'auto-attention guidée. Cette approche est capable d'intégrer les caractéristiques locales avec leurs dépendances globales correspondantes, ainsi que de mettre en évidence les cartes de canaux interdépendantes d'une manière adaptative. De plus, la perte supplémentaire entre différents modules guide les mécanismes d'attention à négliger les informations non pertinentes et à se concentrer sur des régions plus discriminantes de l'image en soulignant les associations de caractéristiques pertinentes. Nous évaluons le modèle proposé dans le contexte du segmentage sémantique sur trois jeux de données différents : organes abdominaux, structures cardiovasculaires et tumeurs cérébrales. Une série d'expériences d'ablation soutient l'importance de ces modules d'attention dans l'architecture proposée. En outre, comparativement aux autres réseaux de segmentation de pointe, notre modèle offre une meilleure performance en termes de segmentation, améliorant la précision des prédictions tout en réduisant l'écart type. Cela démontre l'efficacité de notre approche pour générer des segmentations automatiques précises et fiables d'images médicales. Notre code est rendu publiquement disponible sur https://github.com/sinAshish/Multi-Scale-Attention.