HyperAIHyperAI
il y a 17 jours

MIST : Transformer pour la segmentation d'images médicales avec un décodeur à attention convolutive mixte (CAM)

Md Motiur Rahman, Shiva Shokouhmand, Smriti Bhatt, Miad Faezipour
MIST : Transformer pour la segmentation d'images médicales avec un décodeur à attention convolutive mixte (CAM)
Résumé

L'une des approches prometteuses et largement utilisées en apprentissage profond pour la segmentation d'images médicales est le modèle Transformer, qui permet de capturer des dépendances à longue portée entre les pixels grâce à son mécanisme d'attention auto-attention. Bien que ces modèles aient démontré un succès significatif dans la segmentation d'images médicales, ils présentent des limites dans la modélisation du contexte local des pixels, notamment dans les dimensions multimodales. Nous proposons un modèle de segmentation d'images médicales basé sur les Transformers, appelé MIST (Medical Image Segmentation Transformer), intégrant un nouveau décodeur appelé Convolutional Attention Mixing (CAM), conçu pour surmonter cette limitation. Le modèle MIST se compose de deux composants principaux : un vision transformer multi-axe pré-entraîné, MaxViT, utilisé comme encodeur, et un décodeur CAM qui traite les représentations fonctionnelles extraites pour effectuer la segmentation. Dans le décodeur CAM, un module d'attention-mixer combinant l'attention multi-têtes, l'attention spatiale et les modules d'attention squeeze-and-excitation est introduit afin de capturer efficacement les dépendances à longue portée dans toutes les dimensions spatiales. Par ailleurs, pour renforcer l'acquisition d'informations spatiales, des convolutions profondes et superficielles sont respectivement employées pour l'extraction de caractéristiques et l'expansion du champ réceptif. Les connexions par saut (skip connections) permettent d'intégrer les caractéristiques de basse et haute niveau provenant de différentes étapes du réseau, ce qui aide le modèle à supprimer les informations non pertinentes. Les expérimentations montrent que notre modèle MIST, équipé du décodeur CAM, surpasser les états de l'art spécifiquement conçus pour la segmentation d'images médicales sur les jeux de données ACDC et Synapse. Nos résultats démontrent également que l'ajout du décodeur CAM à un Transformer hiérarchique améliore de manière significative la performance de segmentation. Le modèle, accompagné de ses données et de son code source, est disponible publiquement sur GitHub.

MIST : Transformer pour la segmentation d'images médicales avec un décodeur à attention convolutive mixte (CAM) | Articles de recherche récents | HyperAI