HyperAI

Sélectionné Pour L'eccv 2024 ! L'Université Du Zhejiang Et Microsoft Research Asia Proposent Un Cadre Unifié De Pré-formation En Image Médicale UniMedI Pour Briser Les Barrières De L'hétérogénéité Des Données Médicales

特色图像

Permettre à l’IA d’avoir des capacités de réponse similaires à celles des humains dans certaines conditions, afin qu’elle puisse remplacer efficacement les humains dans l’exécution de tâches spécifiques, est la quête incessante des chercheurs dans le domaine de l’IA. Comme à l'intersection de l'imagerie médicale et de l'intelligence artificielle, les modèles profonds basés sur la pré-formation du langage visuel (VLP) peuvent être pré-entraînés sur un grand nombre d'images et d'ensembles de données textuelles correspondants en raison de leurs caractéristiques automatisées, et apprendre à extraire automatiquement les caractéristiques pertinentes de nouvelles images, ce qui peut résoudre efficacement les besoins d'annotation manuelle qui prennent du temps et demandent beaucoup de travail.

Cependant, bien que le VLP ait obtenu un certain degré de succès dans le domaine médical, il est encore confronté à de nombreux défis pour étendre davantage l'échelle des données de son application.

Premièrement, la formation des modèles existants est principalement basée sur des données monomodales (principalement des images 2D, telles que des rayons X), ce qui est incompatible avec les scénarios médicaux réels impliquant des images multimodales (y compris des images 2D et 3D, telles que des images CT et IRM, etc.) ; Deuxièmement, l’hétérogénéité inhérente aux images médicales de différentes modalités entrave également leur collaboration et leur intégration efficaces. De plus, les données des différentes modalités d’images médicales présentent également des différences dimensionnelles et un manque de données appariées. donc,Comment construire un modèle unifié et cartographier efficacement ces différentes données modales dans un espace commun pour parvenir à un apprentissage conjoint est devenu un sujet extrêmement difficile.

Afin de résoudre les problèmes ci-dessus,L'équipe de Hu Haoji de l'Université du Zhejiang et l'équipe de Qiu Lili de Microsoft Research Asia ont proposé un nouveau cadre unifié de pré-formation en images médicales, UniMedI.Il utilise les rapports de diagnostic comme espace sémantique commun pour créer une représentation unifiée des images médicales de différentes modalités. De plus, il introduit également la technologie de création de « pseudo-paires ». Sous la conduite du texte,UniMedI est capable de sélectionner des tranches 2D liées au texte à partir d'images 3D complexes, qui agissent comme des pseudo-paires reliant les données 2D et 3D, améliorant la cohérence entre les différentes modalités d'imagerie médicale et intégrant efficacement les images médicales multimodales.

Les résultats de recherche pertinents sont intitulés « Unified Medical Image Pre-training in Language-Guided Common Semantic Space » et inclus dans ECCV 2024, la principale conférence dans le domaine de la vision par ordinateur et de l'apprentissage automatique.

Pour plus d'informations sur le sommet, veuillez cliquer sur le lien ci-dessous :

https://go.hyper.ai/0wtVi

Points saillants de la recherche :
* Lors d'expériences, UniMedI a démontré d'excellentes performances sur des images 2D et 3D sur plusieurs ensembles de données différents, et a excellé dans un large éventail de tâches médicales telles que la classification, la segmentation et la récupération d'images 

* UniMedI peut collecter des images 2D et 3D de manière unifiée, résolvant ainsi le problème de pénurie de données dans le domaine médical


Adresse du document :
https://eccv.ecva.net/virtual/2024/poster/1165
Suivez le compte officiel et répondez « Medical Image Pre-training Framework » pour obtenir le PDF complet

Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :

https://github.com/hyperai/awesome-ai4s

Données médicales réelles, cadre de vérification efficace

Les données utilisées pour la pré-formation du cadre UniMedI proviennent de la version JPG de l'ensemble de données de radiographie 2D MIMIC-CXR 2.0.0 et de l'ensemble de données de tomodensitométrie 3D BIMCV.

Parmi eux, les chercheurs ont prétraité l’ensemble de données 2D en éliminant toutes les images latérales pour l’aligner avec les tâches en aval qui n’utilisent que des images frontales. Dans le même temps, pour maintenir l’exhaustivité de l’ensemble de données, de courts rapports d’ensembles de données 2D et 3D comportant moins de 3 phrases n’ont pas été utilisés dans les expériences.

En termes d'images, la taille des images 2D est de 224 × 224 et la taille des images 3D est de 128 × 128 × 32.

L'équipe de recherche a pré-entraîné le cadre UniMedI 50 fois sur 8 GPU Tesla V100 avec une taille de lot de 144.

Dans l’évaluation expérimentale, l’équipe a d’abord effectué une classification d’images médicales sur des ensembles de données 2D et 3D.Il existe trois ensembles de données 2D représentatifs : CheXpert, qui contient 191 229 radiographies thoraciques frontales ; Version RSNA de la pneumonie de stade 2, qui contient environ 29 700 radiographies thoraciques frontales ; et 16 490 images positives au COVID-19 provenant de plus de 2 800 patients.

L'équipe a ensuite classé deux ensembles de données 3D représentatifs :Il s'agit respectivement de CC-CCII et LUNA 16. Parmi eux, CC-CCII a utilisé la version Clean-CC-CCII, qui contient 340 190 coupes provenant de 3 993 scans de 2 698 patients ; LUNA 16, construit sur LIDC-IDRI, contient 888 scanners CT avec annotations. Dans cette expérience, les scanners CT avec une épaisseur de coupe supérieure à 3 mm ont été supprimés de la base de données LIDC-IDRI.

Le mécanisme de collaboration en couches élimine les barrières de données

UniMedI a proposé dans cette étude un cadre de pré-formation vision-langage. Les images médicales et leurs rapports textuels sont codés par deux encodeurs, respectivement l'encodeur de vision et l'encodeur de texte, puis appris conjointement via l'apprentissage contrastif VL (Vision-Language). UniMedI est unique en ce qu'il peut acquérir efficacement des images 2D et 3D de manière unifiée, résolvant ainsi le problème de pénurie de données dans le domaine médical. Le cadre général d'UniMedI est présenté sur le côté gauche de la figure ci-dessous :

Cadre général d'UniMedI : le côté gauche représente le processus global, le côté droit représente la conception clé

Dans l'expérience, l'encodeur visuel utilisé est ViT-B/16, qui extrait principalement des représentations dans l'espace des caractéristiques communes des données visuelles 2D et 3D. L'encodeur de texte utilise BioClinicalBERT pour encoder les fonctionnalités du texte. L'encodeur visuel et l'encodeur de texte sont universels dans les données 2D et 3D.

Pour surmonter le défi de l’inexistence de données d’images 2D et 3D appariées.L'équipe de recherche a introduit une méthode pour créer un « pseudo-appariement » dans UniMedI, qui est conçue sur la base d'une nouvelle stratégie de sélection de tranches d'attention guidée par le langage.

Par exemple, lorsque l'entrée est une image 3D, une partie des tranches 2D les plus pertinentes pour le rapport en est extraite, puis les tranches sélectionnées sont considérées comme des images 2D, formant ainsi une pseudo-relation d'appariement d'images 2D-3D. Après cela, en alimentant les tranches 2D sélectionnées dans le réseau avec l'image 3D d'origine, la relation entre elles et le rapport peut être apprise conjointement pour finalement former un espace de fonctionnalités unifié. Lorsque l'entrée est une image 2D, le processus de sélection de tranche est omis.

Ensuite, un encodeur visuel mappe toutes les images multimodales (y compris les images 2D et 3D originales et les tranches 2D sélectionnées) dans l'espace de représentation. L'encodeur visuel dispose d'étiqueteurs T pour les images 2D et 3D respectivement.2D et T3D, et un backbone partagé E pour une meilleure intégrationv . Le modèle composé de l'encodeur visuel et de l'encodeur de texte Eₗ est appris de bout en bout dans un VLP via la perte d'apprentissage contrastive Lᵥₗ. Dans ce processus, les images 2D et 3D peuvent être codées dans un espace sémantique commun supervisé par les informations linguistiques contenues dans les rapports.

Afin de tirer pleinement parti des données multimodales des images médicales elles-mêmes et de certaines informations publiques partagées, cette étude a également introduit une conception de tâche auxiliaire, à savoir le masquage et la restauration, et a utilisé la méthode d'autodistillation pour terminer la tâche.Cela permet aux jetons d’images 2D et 3D de communiquer entre eux et améliore les interactions interdimensionnelles et l’intégration d’images multimodales.

Il convient de noter que l’un des points forts d’UniMedI est l’effet synergique de la stratégie de sélection des tranches d’attention et de l’apprentissage contrastif VL.

* d'une part,L'apprentissage contrastif VL permet la supervision du langage, qui est directement appliquée au jeton visuel CLS. Ce jeton contient des informations importantes dans le rapport, de sorte que le poids d'attention du jeton CLS visuel, en tant que base pour la sélection de tranches 2D, transporte les informations de supervision du rapport et construit un espace de fonctionnalités conjoint avec les fonctionnalités 3D.

* d'autre part,Une sélection minutieuse des tranches conduit à un espace de fonctionnalités 2D et 3D plus intégré, même sans données appariées. Cet espace commun permet d’amplifier les informations détaillées entre les images et les rapports médicaux et, de cette manière, favorise l’alignement entre les images et les rapports. Ces deux conceptions combinent les représentations d'images multimodales et les rapprochent en même temps de l'espace de représentation du rapport, obtenant l'effet d'un plus un supérieur à deux dans la construction d'un espace sémantique commun.

L'évaluation expérimentale multi-angles montre que ses performances surpassent celles d'UniMiss

Afin de réaliser une évaluation complète et efficace d'UniMedI, cette étude a mis en place des observations multi-angles et vérifié ses performances et son efficacité en effectuant une analyse comparative avec diverses méthodes VLP médicales.

Tout d’abord, l’équipe de recherche a comparé UniMedI avec des méthodes telles que ConVIRT, GLoRIA, MGCA, LOVT, PRIOR, etc., qui sont adaptées aux radiographies et aux rapports médicaux correspondants ; Ensuite, l'équipe de recherche a comparé UniMedI avec plusieurs méthodes d'apprentissage conjoint 2D et 3D, notamment UniMiss et Joint.

Les résultats de l’expérience de classification linéaire montrent queDans les résultats expérimentaux de classification d'images médicales 2D (comme indiqué ci-dessous), comparés à la méthode MGCA de pointe (ViT-b/16) utilisant ViT comme encodeur visuel, UniMedI a obtenu les meilleurs résultats dans trois classifications d'images médicales 2D sous différentes données d'entraînement (1%, 10%, 100%).

* Expérience de classification linéaire : utilisée pour évaluer la capacité de représentation d'UniMedI

En comparaison, l'AUROC d'UniMedI sur l'ensemble de données CheXpert a été amélioré de +0,6%, +0,6% et +0,8% respectivement ; l'AUROC sur l'ensemble de données RSNA a été amélioré de +0,9%, +0,5% et +0,7% respectivement ; et l'AUROC sur l'ensemble de données COVID a été amélioré de +5,5%, +7,6% et +2,3% respectivement. Les résultats expérimentaux démontrent l’efficacité de l’algorithme proposé.

Résultats de classification linéaire 2D sur les ensembles de données CheXpert, RSNA et COVID avec les données d'entraînement 1%, 10% et 100%

Dans les résultats expérimentaux de classification d'images médicales 3D (comme indiqué ci-dessous), comparé à l'UniMiss le plus avancé, UniMedI a amélioré les gains ACC de +22,6%, +2,0% et +0,8% sur les ensembles de données CC-CCII respectivement. Ces données vérifient l’efficacité et l’efficience des données d’UniMedI.

Résultats de classification linéaire 3D sur CC-CCII avec les données d'entraînement 1%, 10% et 100%

Dans le même temps, lorsque l'encodeur visuel complet est affiné avec les données de formation complètes, UniMedI surpasse les autres méthodes sur plusieurs ensembles de données d'images médicales 3D, notamment CC-CCII et LUNA.

Comme le montre la figure ci-dessous, la valeur ACC d'UniMedI sur l'ensemble de données CC-CCII est 93,8% et la valeur ACC sur l'ensemble de données LUNA2016-v2 est 95,9%. Cela montre sa capacité de généralisation significative sur les tâches de classification d'images médicales 2D et 3D, indiquant que le cadre a la capacité d'extraire des caractéristiques universelles des images CT 3D.

Résultats de réglage fin 3D sur les ensembles de données CC-CCII et RICORD avec données d'entraînement complètes

Les résultats des expériences de segmentation sémantique médicale montrent queDans les résultats de segmentation sémantique médicale 2D, UniMedI est nettement meilleur que l'algorithme MGCA de pointe actuel. En utilisant 1% de données de formation, UniMedI atteint un Dice de 67,8%. Dans les résultats de segmentation sémantique médicale 3D, UniMedI améliore la précision de 0,6% et 0,4% respectivement par rapport à UniMiss sur l'ensemble de données BCV lorsque la disponibilité limitée des étiquettes est de 40% et 100%, comme indiqué dans la figure ci-dessous.

* Expérience de segmentation sémantique médicale : utilisée pour évaluer les performances de segmentation, en utilisant des radiographies thoraciques frontales de pneumonie RSNA et des ensembles de données BCV (y compris 50 tomodensitogrammes).

Ces résultats valident la forte supériorité d’UniMedI dans l’extraction de caractéristiques significatives et l’utilisation efficace de données annotées limitées, démontrant sa plus grande compétence dans l’exploitation des représentations locales pour les tâches de segmentation sémantique.

La technologie contribue à approfondir le lien entre la VLP et l'imagerie médicale

Les modèles de pré-formation du langage visuel deviennent un pont important reliant la vision par ordinateur et le traitement du langage naturel, en particulier dans le domaine de l'imagerie médicale. Grâce à une formation préalable sur des données visuelles et linguistiques à grande échelle, ils peuvent facilement capturer la relation complexe entre des images médicales complexes et des textes, aidant ainsi les médecins dans le diagnostic d'image, aidant les entreprises dans la recherche et le développement de médicaments ou réalisant une gestion intelligente des images médicales.

Le fait que cette recherche ait été sélectionnée pour une conférence internationale de premier plan prouve également, d’un autre point de vue, l’énorme potentiel du VLP à l’intersection de l’intelligence artificielle et de l’imagerie médicale.En fait, outre la forte collaboration entre les deux équipes de l’Université du Zhejiang et de Microsoft Research Asia, de nombreux laboratoires ont déjà réalisé des percées dans ce domaine.

Par exemple, UniMiss, l'une des méthodes avancées mentionnées dans l'étude ci-dessus, a été publiée dans l'ECCV de l'année 2022 par une équipe de l'Université d'Adélaïde et de l'École d'informatique de l'Université polytechnique du Nord-Ouest, sous le titre « UniMiss : Universal Medical Self-Supervised Learning via Breaking Dimensionality Barrier ».

Adresse du document :
https://dl.acm.org/doi/abs/10.1007/978-3-031-19803-8_33

Dans cette étude, les auteurs préconisent l’utilisation d’un grand nombre d’images 2D pour pallier le manque de données 3D, visant à établir un cadre général d’apprentissage de l’expression médicale auto-supervisée nommé UniMiss.Les résultats expérimentaux montrent qu'UniMiss présente de grands avantages par rapport à la pré-formation ImageNet et à d'autres adversaires avancés SSL (apprentissage auto-supervisé). Dans les tâches d’analyse d’images médicales 2D/3D, la segmentation et la classification donnent toutes deux des résultats satisfaisants.

De plus, en juillet de cette année, l’équipe a mené une nouvelle série de recherches sur UniMiss et a proposé UniMiss+. Actuellement, les résultats pertinents ont été inclus dans la célèbre revue internationale IEEE Transactions on Pattern Analysis and Machine Intelligence sous le titre « UniMiSS+ : Universal Medical Self-Supervised Learning From Cross-Dimensional Unpaired Data ».

Adresse du document :
https://ieeexplore.ieee.org/document/10617802

Dans le cadre de ses dernières recherches, l'équipe a introduit la technologie de film radiographique reconstruit numériquement dans UniMiss+ pour simuler des images radiographiques de tomodensitométrie afin d'accéder à des données d'images CT et radiographiques appariées. Il s’agit d’une énorme amélioration par rapport à la génération précédente d’UniMiss.

En bref, la recherche scientifique pertinente intégrant l’intelligence artificielle et les images médicales bat toujours son plein. Au fil du temps, ces réalisations seront transformées en applications et mises en œuvre dans des scénarios médicaux réels, devenant de nouveaux outils au profit du personnel médical, des patients et des entreprises.