HyperAIHyperAI

Command Palette

Search for a command to run...

MIST : Transformer pour la segmentation d'images médicales avec un décodeur à attention convolutive mixte (CAM)

Md Motiur Rahman Shiva Shokouhmand Smriti Bhatt Miad Faezipour

Résumé

L'une des approches prometteuses et largement utilisées en apprentissage profond pour la segmentation d'images médicales est le modèle Transformer, qui permet de capturer des dépendances à longue portée entre les pixels grâce à son mécanisme d'attention auto-attention. Bien que ces modèles aient démontré un succès significatif dans la segmentation d'images médicales, ils présentent des limites dans la modélisation du contexte local des pixels, notamment dans les dimensions multimodales. Nous proposons un modèle de segmentation d'images médicales basé sur les Transformers, appelé MIST (Medical Image Segmentation Transformer), intégrant un nouveau décodeur appelé Convolutional Attention Mixing (CAM), conçu pour surmonter cette limitation. Le modèle MIST se compose de deux composants principaux : un vision transformer multi-axe pré-entraîné, MaxViT, utilisé comme encodeur, et un décodeur CAM qui traite les représentations fonctionnelles extraites pour effectuer la segmentation. Dans le décodeur CAM, un module d'attention-mixer combinant l'attention multi-têtes, l'attention spatiale et les modules d'attention squeeze-and-excitation est introduit afin de capturer efficacement les dépendances à longue portée dans toutes les dimensions spatiales. Par ailleurs, pour renforcer l'acquisition d'informations spatiales, des convolutions profondes et superficielles sont respectivement employées pour l'extraction de caractéristiques et l'expansion du champ réceptif. Les connexions par saut (skip connections) permettent d'intégrer les caractéristiques de basse et haute niveau provenant de différentes étapes du réseau, ce qui aide le modèle à supprimer les informations non pertinentes. Les expérimentations montrent que notre modèle MIST, équipé du décodeur CAM, surpasser les états de l'art spécifiquement conçus pour la segmentation d'images médicales sur les jeux de données ACDC et Synapse. Nos résultats démontrent également que l'ajout du décodeur CAM à un Transformer hiérarchique améliore de manière significative la performance de segmentation. Le modèle, accompagné de ses données et de son code source, est disponible publiquement sur GitHub.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MIST : Transformer pour la segmentation d'images médicales avec un décodeur à attention convolutive mixte (CAM) | Articles | HyperAI