MedSegDiff-V2 : Segmentation d'images médicales basée sur la diffusion avec Transformer

Le modèle probabiliste de diffusion (DPM) a récemment connu un fort intérêt dans le domaine de la vision par ordinateur, en raison de ses applications de génération d’images, telles qu’Imagen, les Modèles de diffusion latente et Stable Diffusion, qui ont démontré des capacités impressionnantes et suscité un vif débat au sein de la communauté scientifique. Des études récentes ont également mis en évidence l’utilité du DPM dans le domaine de l’analyse d’images médicales, comme en témoigne la performance remarquable d’un modèle de segmentation d’images médicales sur diverses tâches. Bien que ces modèles aient initialement reposé sur une architecture UNet, une voie prometteuse pour améliorer leurs performances réside dans l’intégration de mécanismes de vision transformer. Toutefois, nous avons constaté qu’une combinaison simple de ces deux approches conduisait à des résultats médiocres. Afin d’intégrer efficacement ces deux techniques de pointe pour la segmentation d’images médicales, nous proposons un nouveau cadre fondé sur les transformateurs, appelé MedSegDiff-V2. Nous validons son efficacité sur 20 tâches de segmentation d’images médicales, couvrant différentes modalités d’imagerie. Une évaluation approfondie montre que notre approche surpasser les méthodologies d’état de l’art précédentes. Le code source est disponible à l’adresse suivante : https://github.com/KidsWithTokens/MedSegDiff