HyperAI

Sélectionné Pour CVPR 2025 ! L'équipe De L'université De Shenzhen Et D'autres Ont Proposé EchoONE, Qui Peut Segmenter Avec Précision Les Échocardiogrammes Multi-sections

特色图像

Les décès dus aux maladies cardiovasculaires sont la principale cause de décès parmi les résidents chinois. L'échocardiographie est devenue l'une des méthodes d'examen cardiaque les plus utilisées dans la pratique clinique en raison de ses avantages tels que son caractère non invasif, son faible coût et son imagerie en temps réel. En pratique, les échographistes doivent scanner le cœur à partir de différentes positions et sous différents angles pour obtenir des images échographiques de plusieurs sections, puis combiner les sections pour analyser la structure et la fonction du cœur, notamment en identifiant le contour du myocarde et en mesurant la taille de chaque chambre.

Cependant, en raison des différences structurelles importantes entre les différentes tranches, les modèles de segmentation existants ont de faibles capacités de généralisation sur les graphiques multi-tranches et doivent généralement être personnalisés individuellement pour chaque tranche spécifique, ce qui entraîne des coûts élevés de développement répété. De plus, lorsque des modèles de sections spécifiques sont appliqués à d’autres sections, les performances diminuent souvent de manière significative, limitant ainsi leur promotion et leur application dans la pratique clinique.

En réponse à cela, une équipe de recherche du Laboratoire de calcul d'images d'échographie médicale (MUSIC) de l'École d'ingénierie biomédicale, de l'École de médecine de l'Université de Shenzhen, du Laboratoire national d'ingénierie pour le Big Data de l'Université de Shenzhen et du Département d'échographie de l'Hôpital populaire de Shenzhen a proposé le modèle de segmentation unifiée d'échocardiographie multi-sections EchoONE. Le modèle combine la technologie de réglage fin du grand modèle SAM de segmentation d'image naturelle et la connaissance préalable des sections d'échographie cardiaque.Il peut segmenter avec précision la structure cardiaque des échocardiogrammes multi-sections, réduisant ainsi efficacement la complexité du modèle de conception.Aider les médecins à évaluer la fonction cardiaque plus efficacement.

La recherche, intitulée « EchoONE : Segmentation de plusieurs plans d'échocardiographie dans un seul modèle », a été sélectionnée pour la conférence IEEE/CVF 2025 sur la vision par ordinateur et la reconnaissance de formes (CVPR).

Points saillants de la recherche :

* Développement réussi d'un modèle unifié capable de segmenter avec précision les échocardiogrammes multi-sections présentant des différences structurelles significatives

* Un module d'apprentissage de masque composable a priori (PC-Mask) est proposé pour générer des indices denses sémantiquement conscients, et un module de fusion et d'adaptation de fonctionnalités locales (LFFA) est introduit pour adapter l'architecture SAM. Cela permet à EchoONE de bien traiter différentes sections d'échocardiogrammes avec une distribution de données significativement différente et des limites floues.

* Les performances du modèle EchoONE sont meilleures que celles de nombreux autres grands modèles basés sur un réglage fin, et il atteint également les meilleures performances dans l'ensemble de tests externes

Adresse du document :
https://arxiv.org/abs/2412.02993

Le projet open source « awesome-ai4s » rassemble plus de 200 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :

https://github.com/hyperai/awesome-ai4s

Ensemble de données : 3 grands ensembles de données publics + 22 044 paires d'images annotées privées

Cette étude a utilisé des échocardiogrammes multisectionnels provenant de plusieurs centres.Comprend des ensembles de données privés et publics.

Les ensembles de données publics incluent CAMUS, HMC_QU et EchoNet_Dynamic. CAMUS est un ensemble de données d'échographie cardiaque largement utilisé dans ce domaine. Il provient de plusieurs hôpitaux en France et comprend des données sur le cœur à deux chambres (2CH) et le cœur à quatre chambres (4CH) de 500 cas. L'ensemble de données HMC_QU a été créé en collaboration entre Hamad Medical Corporation (HMC), l'Université de Tampere et l'Université du Qatar. L'ensemble de données EchoNet-Dynamic a été créé par l'Université de Stanford. Cette étude a uniquement utilisé son ensemble de tests pour des expériences de tests externes afin de faciliter l’analyse comparative.

* Téléchargement de l'ensemble de données d'images d'échographie cardiaque CAMUS :
https://hyper.ai/cn/datasets/38453

* Téléchargement de l'ensemble de données d'imagerie médicale cardiaque HMC-QU :
https://hyper.ai/cn/datasets/38456

L'ensemble de données privées a été obtenu à partir de données échographiques provenant de plusieurs hôpitaux coopératifs nationaux, totalisant 22 044 paires d'images-annotations, comprenant trois sections horizontales différentes du cœur à deux chambres (2CH), du cœur à trois chambres (3CH), du cœur à quatre chambres (4CH) et de l'axe court du ventricule gauche parasternal (PSAX).

Architecture du modèle : Basé sur SAM, le modèle EchoONE se compose de trois composants principaux

Le cadre global d’EchoONE est principalement composé de trois composants : une architecture de segmentation basée sur SAM ; un composant pour générer des invites denses ; et une branche de fonctionnalités locales basée sur CNN pour ajuster et adapter SAM.L'ensemble de l'architecture du réseau est construit sur la base du SAM d'origine.Contient des encodeurs d'image et des décodeurs de masque basés sur Transformer, des encodeurs de repères clairsemés et des encodeurs de masque pour un repérage dense.

Cadre général d'EchoONE

De plus, les chercheurs ont introduit le module de fusion et d'adaptation de caractéristiques locales (LFFA) dans la branche Ladder Side Tuning (LST) pour améliorer l'adaptabilité de SAM à des tâches spécifiques. Dans le même temps, ils ont également proposé un module d'apprentissage de masque composable basé sur le clustering (PC-Mask) pour générer des indices denses sémantiquement conscients. Les détails de PC-Mask et LFFA sont les suivants :

(a) Module PC-Mask

Les indices de masque denses fournissent à SAM des informations plus riches que les indices de point et de boîte, et le module PC-Mask peut générer automatiquement des indices de masque de haute qualité. Pour gérer la diversité des structures sémantiques sur plusieurs tranches, les chercheurs ont d’abord regroupé les images sur différentes tranches en K clusters dans l’espace des caractéristiques latentes. Le centre de chaque cluster est utilisé comme prototype du cluster dans l’espace latent. De la même manière,Un masque central peut être obtenu en faisant la moyenne des masques des images attribuées au cluster.

Détails du module PC-Mask

En utilisant ces centres de masque comme structure préalable,L’objectif des chercheurs était de générer un aperçu dense de la région myocardique pour chaque nouvelle image sans information sur le type de tranche.Pour une image d’entrée, sa similarité (ou distance) à ces prototypes est utilisée pour représenter sa position dans l’espace latent ; ensuite, la similarité est utilisée comme poids pour combiner ces centres antérieurs dans une intégration antérieure multicanal, et enfin entrée dans un U-Net léger, et le résultat de sortie est utilisé comme invite dense de SAM. Ce processus est limité par la perte de dés et la perte BCE.

(b) Module LFFA

Afin d'utiliser pleinement les capacités de SAM et d'éviter le recyclage et le gaspillage de ressources, une branche auxiliaire est nécessaire pour ajuster SAM afin de s'adapter à de nouveaux scénarios. Les chercheurs ont conçu une branche CNN apprenable, qui se compose de trois parties : la première est le bloc résiduel pour l'extraction de caractéristiques locales ; le deuxième est le bloc CNN permettant de régler l'attention inter-branches de l'encodeur d'image ; le troisième est le bloc Transformateur de fusion de fonctionnalités locales qui adapte le décodeur de masque à des tâches spécifiques.

Dans le décodeur de masque, en plus des deux blocs Transformer du SAM d'origine,Les chercheurs ont également ajouté 3 blocs d’apprentissage,S'adapter à la fusion des caractéristiques locales. Les caractéristiques locales de chaque couche de blocs CNN dans l'encodeur d'image qui sont remarquées à travers les branches sont connectées aux blocs Transformer correspondants du décodeur de masque, et les caractéristiques de chaque couche sont fusionnées via le module LFFA. Le processus est illustré ci-dessous.

Fonctionnement du module LFFA

Conclusion expérimentale : EchoONE est à la fois précis et robuste dans la tâche de segmentation multi-plans de l'échocardiographie

Les chercheurs ont mené des expériences approfondies en utilisant des ensembles de données internes et externes.Cela prouve l’efficacité d’EchoONE.

Robustesse aux tâches multi-aspects : Le tableau suivant résume les performances du modèle sur divers aspects de l'ensemble de tests internes. On peut voir qu'EchoONE compare les modèles basés sur CNN, Transformer et SAM.Il a obtenu les meilleurs résultats en termes d'indicateurs moyens Dice, IoU et HD95.

Comparaison des performances de segmentation de différents modèles dans plusieurs tranches

Robustesse aux différentes structures cardiaques : Comme le montre le graphique radar ci-dessous, par rapport aux modèles précédents,Le modèle EchoONE a obtenu des valeurs Dice plus élevées dans chaque structure du cœur (oreillette gauche, ventricule gauche, myocarde).

Graphique radar des performances de segmentation de chaque structure cardiaque dans chaque section

Robustesse aux données intercentriques :La figure et le tableau suivants montrent qu’EchoONE obtient les meilleures performances sur l’ensemble de tests de 5 centres internes.

Performances de segmentation d'EchoONE et modèles de comparaison sur l'ensemble de tests public interne CAMUS
Performances de segmentation d'EchoONE et modèles de comparaison sur 4 centres d'un ensemble de tests privés internes

Validation externe : Comme le montre la figure ci-dessous, même deux ensembles de tests externes qui n'ont pas été vus pendant la formation,EchoONE démontre toujours de fortes performances de généralisation.Pour HMC_QU avec un bruit évident et des images de faible qualité, EchoONE fournit également un score Dice de 73,94%, indiquant son grand potentiel dans la pratique clinique réelle.

Résultats d'EchoONE et modèles de comparaison sur des ensembles de tests externes

Analyse visuelle : À partir de la comparaison des résultats de visualisation, nous pouvons également voir queEchoONE offre non seulement une zone de segmentation raisonnable, mais offre également des résultats exceptionnels en matière de raffinement des contours.Cela est dû au fait qu'il génère des résultats de segmentation grossiers pour différentes tranches, incitant le modèle à se concentrer sur la zone et à affiner les limites, améliorant ainsi les résultats de segmentation.

Visualisation des résultats de segmentation d'EchoONE et méthodes de comparaison sur des images échographiques multi-sections

Résultats de l'expérience d'ablation : Afin d'étudier plus en détail l'efficacité des modules PC-Mask et LFFA dans l'amélioration des performances du modèle, les chercheurs ont mené des expériences d'ablation sur 5 ensembles de données internes. D'après les résultats,Ces deux modules optimisent respectivement l'architecture SAM en utilisant les connaissances préalables et en fusionnant les fonctionnalités locales de manière sémantique.Cela permet à EchoONE d'obtenir des performances précises et robustes pour le problème de segmentation multi-coupes de l'échocardiographie.

Résultats de l'expérience d'ablation

L'étude peut être étendue à d'autres modalités d'imagerie médicale

Le modèle EchoONE vise à relever le défi complexe de la segmentation multi-tranches en introduisant un module d'apprentissage de repères denses innovant, PC-Mask, qui exploite les connaissances structurelles antérieures de manière composable et fournit des conseils sémantiques efficaces et spécifiques à chaque tranche pendant le processus de segmentation. De plus, l’étude a proposé une branche de fonctionnalités locales CNN apprenable pour optimiser l’encodeur d’image et adapter le décodeur de masque. Le module LFFA a non seulement amélioré les performances finales, mais a également accéléré la vitesse de convergence.

Il s’agit du premier schéma proposé pour segmenter efficacement toutes les sections d’échocardiogramme à l’aide d’un seul modèle robuste, simplifiant ainsi l’application de la technologie de l’intelligence artificielle dans la pratique clinique.Bien qu'actuellement validée uniquement sur des images échographiques, cette approche a le potentiel d'être étendue à d'autres modalités d'imagerie médicale pour gérer les problèmes de segmentation multi-coupes. À l’avenir, les chercheurs se concentreront sur l’amélioration des capacités de généralisation de davantage d’aspects et sur la création de modèles robustes pour les vidéos à multiples facettes.

Il convient de mentionner que la personne responsable de ce projet de recherche, Xue Wufeng, est issue de l'École de génie biomédical de l'École de médecine de l'Université de Shenzhen. Son équipe mène depuis longtemps des recherches sur l'imagerie médicale cardiaque et l'intelligence artificielle, couvrant la modélisation de la structure/fonction/flux sanguin cardiaque, les modèles cardiaques de base, les grands modèles graphiques, etc. Les étudiants invités, les postdoctorants, les chercheurs, etc. sont les bienvenus. Les personnes intéressées peuvent contacter le professeur Xue Wufeng à « xuewf@szu.edu.cn ».
* Page d'accueil personnelle de Xue Wufeng :
https://bme.szu.edu.cn/info/116