HyperAI

Ausgewählt Für ECCV 2024! Die Zhejiang-Universität Und Microsoft Research Asia Schlagen Ein Einheitliches Pre-Training-Framework Für Medizinische Bilder UniMedI Vor, Um Die Barrieren Der Heterogenität Medizinischer Daten Zu Überwinden

特色图像

Forscher auf dem Gebiet der KI streben unablässig danach, der KI unter bestimmten Bedingungen menschenähnliche Reaktionsfähigkeiten zu verleihen, sodass sie Menschen bei der Ausführung bestimmter Aufgaben effizient ersetzen kann. Wie an der Schnittstelle zwischen medizinischer Bildgebung und künstlicher Intelligenz können Deep Models auf Basis von Visual Language Pre-Training (VLP) aufgrund ihrer automatisierten Eigenschaften anhand einer großen Anzahl von Bild- und entsprechenden Textdatensätzen vortrainiert werden und lernen, relevante Merkmale automatisch aus neuen Bildern zu extrahieren, wodurch der zeit- und arbeitsintensive manuelle Annotationsbedarf effizient gelöst werden kann.

Obwohl VLP im medizinischen Bereich einen gewissen Erfolg erzielt hat, ist es bei der weiteren Ausweitung des Datenumfangs seiner Anwendung noch immer mit vielen Herausforderungen konfrontiert.

Erstens basiert das Training bestehender Modelle größtenteils auf einmodalen Daten (hauptsächlich 2D-Bildern, wie etwa Röntgenaufnahmen), was nicht mit realen medizinischen Szenarien übereinstimmt, die multimodale Bilder beinhalten (einschließlich 2D- und 3D-Bildern, wie etwa CT- und MRT-Bildern usw.). zweitens behindert die inhärente Heterogenität medizinischer Bilder verschiedener Modalitäten auch deren effektive Zusammenarbeit und Integration. Darüber hinaus weisen Daten aus verschiedenen Modalitäten medizinischer Bilder auch Dimensionsunterschiede und einen Mangel an gepaarten Daten auf. daher,Der Aufbau eines einheitlichen Modells und die effektive Abbildung dieser unterschiedlichen modalen Daten in einem gemeinsamen Raum zum Erreichen gemeinsamen Lernens ist zu einem äußerst anspruchsvollen Thema geworden.

Um die oben genannten Probleme zu lösen,Das Team von Hu Haoji von der Zhejiang-Universität und das Team von Qiu Lili von Microsoft Research Asia haben ein neues einheitliches Framework für das Vortraining medizinischer Bilder vorgeschlagen: UniMedI.Es verwendet Diagnoseberichte als gemeinsamen semantischen Raum, um eine einheitliche Darstellung für medizinische Bilder verschiedener Modalitäten zu erstellen. Darüber hinaus wird auch die Technologie zur Erstellung von „Pseudopaaren“ vorgestellt. Unter der Anleitung des Textes,UniMedI kann aus komplexen 3D-Bildern mit dem Text in Zusammenhang stehende 2D-Schnitte auswählen, die als Pseudopaare fungieren und 2D- und 3D-Daten überbrücken, die Konsistenz zwischen verschiedenen medizinischen Bildgebungsverfahren verbessern und medizinische multimodale Bilder effektiv integrieren.

Die entsprechenden Forschungsergebnisse tragen den Titel „Unified Medical Image Pre-training in Language-Guided Common Semantic Space“ und sind Teil der ECCV 2024, der Top-Konferenz im Bereich Computer Vision und maschinelles Lernen.

Für weitere Informationen zum Gipfel klicken Sie bitte auf den folgenden Link:

https://go.hyper.ai/0wtVi

Forschungshighlights:
* In Experimenten hat UniMedI eine hervorragende Leistung bei 2D- und 3D-Bildern auf mehreren verschiedenen Datensätzen gezeigt und sich bei einer breiten Palette medizinischer Aufgaben wie Bildklassifizierung, -segmentierung und -abruf hervorgetan 

* UniMedI kann 2D- und 3D-Bilder einheitlich erfassen und so das Problem der Datenknappheit im medizinischen Bereich lösen


Papieradresse:
https://eccv.ecva.net/virtual/2024/poster/1165
Folgen Sie dem offiziellen Konto und antworten Sie mit „Medical Image Pre-training Framework“, um das vollständige PDF zu erhalten

Das Open-Source-Projekt „awesome-ai4s“ vereint mehr als 100 AI4S-Papierinterpretationen und stellt umfangreiche Datensätze und Tools bereit:

https://github.com/hyperai/awesome-ai4s

Echte medizinische Daten, effektiver Verifizierungsrahmen

Die für das Vortraining des UniMedI-Frameworks verwendeten Daten stammen aus der JPG-Version des 2D-Röntgendatensatzes MIMIC-CXR 2.0.0 und des 3D-CT-Scan-Datensatzes BIMCV.

Unter anderem verarbeiteten die Forscher den 2D-Datensatz vor, indem sie alle Seitenbilder eliminierten, um ihn an nachgelagerte Aufgaben anzupassen, bei denen nur Frontalbilder verwendet werden. Um die Vollständigkeit des Datensatzes zu wahren, wurden in den Experimenten gleichzeitig keine Kurzberichte von 2D- und 3D-Datensätzen mit weniger als 3 Sätzen verwendet.

Was die Bilder betrifft, beträgt die Größe von 2D-Bildern 224 × 224 und die Größe von 3D-Bildern 128 × 128 × 32.

Das Forschungsteam hat das UniMedI-Framework 50 Mal auf 8 Tesla V100-GPUs mit einer Batchgröße von 144 vortrainiert.

Bei der experimentellen Auswertung führte das Team zunächst eine medizinische Bildklassifizierung an 2D- und 3D-Datensätzen durch.Es gibt drei repräsentative 2D-Datensätze: CheXpert, das 191.229 frontale Bruströntgenbilder enthält; RSNA-Version der Lungenentzündung im Stadium 2, die ungefähr 29.700 Röntgenaufnahmen der Frontalthorax-Oberfläche enthält; und 16.490 positive COVID-19-Bilder von mehr als 2.800 Patienten.

Anschließend klassifizierte das Team zwei repräsentative 3D-Datensätze:Es handelt sich um CC-CCII bzw. LUNA 16. Unter ihnen verwendete CC-CCII die Clean-CC-CCII-Version, die 340.190 Scheiben aus 3.993 Scans von 2.698 Patienten enthält; LUNA 16, basierend auf LIDC-IDRI, enthält 888 CT-Scans mit Anmerkungen. In diesem Experiment wurden CT-Scans mit einer Schichtdicke von mehr als 3 mm aus der LIDC-IDRI-Datenbank gelöscht.

Mehrschichtiger Kollaborationsmechanismus überwindet Datenbarrieren

UniMedI hat in dieser Studie ein Rahmenwerk für das Vortraining der visuellen Sprache vorgeschlagen. Medizinische Bilder und ihre Textberichte werden von zwei Encodern, dem Vision-Encoder und dem Text-Encoder, kodiert und dann gemeinsam durch kontrastives VL-Lernen (Vision-Language) gelernt. UniMedI ist insofern einzigartig, als es 2D- und 3D-Bilder effizient und einheitlich erfassen kann und so das Problem der Datenknappheit im medizinischen Bereich löst. Der Gesamtrahmen von UniMedI ist auf der linken Seite der folgenden Abbildung dargestellt:

UniMedI-Gesamtrahmen: Die linke Seite ist der Gesamtprozess, die rechte Seite ist das Schlüsseldesign

Im Experiment wird als visueller Encoder ViT-B/16 verwendet, der hauptsächlich Darstellungen im gemeinsamen Merkmalsraum von 2D- und 3D-visuellen Daten extrahiert. Der Textencoder verwendet BioClinicalBERT zum Kodieren von Textmerkmalen. Der visuelle Encoder und der Text-Encoder sind universell für 2D- und 3D-Daten.

Um die Herausforderung der Nichtexistenz gepaarter 2D- und 3D-Bilddaten zu überwinden.Das Forschungsteam stellte eine Methode zur Erstellung von „Pseudo-Paarungen“ in UniMedI vor, die auf einer neuartigen sprachgesteuerten Strategie zur Auswahl von Aufmerksamkeitssegmenten basiert.

Wenn es sich bei der Eingabe beispielsweise um ein 3D-Bild handelt, wird ein Teil der 2D-Schnitte, die für den Bericht am relevantesten sind, daraus extrahiert. Anschließend werden die ausgewählten Schnitte als 2D-Bilder betrachtet, wodurch eine Pseudopaarungsbeziehung von 2D-3D-Bildern entsteht. Anschließend kann durch Einspeisen der ausgewählten 2D-Schnitte zusammen mit dem ursprünglichen 3D-Bild in das Netzwerk die Beziehung zwischen ihnen und dem Bericht gemeinsam erlernt werden, und schließlich wird ein einheitlicher Merkmalsraum gebildet. Wenn die Eingabe ein 2D-Bild ist, wird der Schichtauswahlprozess ausgelassen.

Anschließend bildet ein visueller Encoder alle multimodalen Bilder (einschließlich der ursprünglichen 2D- und 3D-Bilder und ausgewählter 2D-Schnitte) im Darstellungsraum ab. Der visuelle Encoder verfügt über Labeler T für 2D- und 3D-Bilder.2D und T3D und ein gemeinsamer Backbone E für eine bessere Integrationv . Das aus dem visuellen Encoder und dem Textencoder Eₗ bestehende Modell wird in einem VLP durchgängig über einen kontrastiven Lernverlust Lᵥₗ gelernt. Dabei können sowohl 2D- als auch 3D-Bilder in einen gemeinsamen semantischen Raum kodiert werden, der durch die linguistischen Informationen in den Berichten überwacht wird.

Um die multimodalen Daten der medizinischen Bilder selbst und einige gemeinsam genutzte öffentliche Informationen voll auszunutzen, führte diese Studie auch ein Hilfsaufgabendesign ein, nämlich Maskierung und Wiederherstellung, und verwendete die Selbstdestillationsmethode, um die Aufgabe zu erledigen.Dadurch können Token von 2D- und 3D-Bildern miteinander kommunizieren und die dimensionsübergreifende Interaktion sowie die Integration multimodaler Bilder verbessert werden.

Es ist erwähnenswert, dass einer der Höhepunkte von UniMedI der synergistische Effekt der Aufmerksamkeitsscheibenauswahlstrategie und des VL-Kontrastlernens ist.

* einerseits,VL-kontrastives Lernen ermöglicht eine Sprachüberwachung, die direkt auf das visuelle CLS-Token angewendet wird. Dieses Token enthält wichtige Informationen im Bericht, sodass das Aufmerksamkeitsgewicht des visuellen CLS-Tokens als Grundlage für die 2D-Schnittauswahl die Überwachungsinformationen aus dem Bericht enthält und zusammen mit den 3D-Funktionen einen gemeinsamen Merkmalsraum erstellt.

* andererseits,Eine sorgfältige Auswahl der Schnitte führt zu einem besser integrierten 2D- und 3D-Merkmalsraum, auch ohne gepaarte Daten. Dieser gemeinsame Raum kann detaillierte Informationen zwischen medizinischen Bildern und Berichten verstärken und auf diese Weise die Abstimmung zwischen Bildern und Berichten fördern. Diese beiden Designs kombinieren die Darstellungen multimodaler Bilder und bringen sie gleichzeitig näher an den Berichtsdarstellungsraum heran, wodurch der Effekt erreicht wird, dass eins plus eins größer als zwei ist, wenn es um die Konstruktion eines gemeinsamen semantischen Raums geht.

Die experimentelle Auswertung aus mehreren Blickwinkeln zeigt, dass seine Leistung UniMiss übertrifft

Um eine umfassende und wirksame Bewertung von UniMedI durchzuführen, wurden in dieser Studie Beobachtungen aus mehreren Blickwinkeln durchgeführt und die Leistung und Wirksamkeit durch eine vergleichende Analyse mit verschiedenen medizinischen VLP-Methoden überprüft.

Zunächst verglich das Forschungsteam UniMedI mit Methoden wie ConVIRT, GLoRIA, MGCA, LOVT, PRIOR usw., die auf Röntgenaufnahmen und die entsprechenden medizinischen Berichte zugeschnitten sind. Anschließend verglich das Forschungsteam UniMedI mit mehreren 2D- und 3D-Gelenklernmethoden, darunter UniMiss und Joint.

Die Ergebnisse des linearen Klassifizierungsexperiments zeigen, dassIn den experimentellen Ergebnissen zur 2D-Klassifizierung medizinischer Bilder (siehe unten) schnitt UniMedI im Vergleich zur hochmodernen MGCA-Methode (ViT-b/16) unter Verwendung von ViT als visuellem Encoder bei drei 2D-Klassifizierungen medizinischer Bilder unter verschiedenen Trainingsdaten (1%, 10%, 100%) am besten ab.

* Lineares Klassifizierungsexperiment: Wird verwendet, um die Darstellungsfähigkeit von UniMedI zu bewerten

Im Vergleich dazu wurde die AUROC von UniMedI im CheXpert-Datensatz um +0,6%, +0,6% bzw. +0,8% verbessert; der AUROC im RSNA-Datensatz wurde um +0,9%, +0,5% bzw. +0,7% verbessert; und der AUROC im COVID-Datensatz wurde um +5,5%, +7,6% bzw. +2,3% verbessert. Experimentelle Ergebnisse belegen die Wirksamkeit des vorgeschlagenen Algorithmus.

Ergebnisse der 2D-linearen Klassifizierung auf CheXpert-, RSNA- und COVID-Datensätzen mit 1%-, 10%- und 100%-Trainingsdaten

In den experimentellen Ergebnissen zur 3D-Klassifizierung medizinischer Bilder (wie unten gezeigt) verbesserte UniMedI im Vergleich zum fortschrittlichsten UniMiss die ACC-Gewinne um +22,6%, +2,0% und +0,8% in den CC-CCII-Datensätzen. Diese Daten belegen die Dateneffizienz und Effektivität von UniMedI.

Ergebnisse der 3D-linearen Klassifizierung auf CC-CCII mit 1%-, 10%- und 100%-Trainingsdaten

Gleichzeitig übertrifft UniMedI bei der Feinabstimmung des vollständigen visuellen Encoders mit den vollständigen Trainingsdaten andere Methoden bei mehreren medizinischen 3D-Bilddatensätzen, darunter CC-CCII und LUNA.

Wie in der folgenden Abbildung gezeigt, beträgt der ACC-Wert von UniMedI im CC-CCII-Datensatz 93,8% und der ACC-Wert im LUNA2016-v2-Datensatz 95,9%. Dies zeigt seine signifikante Generalisierungsfähigkeit sowohl bei 2D- als auch 3D-Klassifizierungsaufgaben für medizinische Bilder und weist darauf hin, dass das Framework in der Lage ist, universelle Merkmale von 3D-CT-Bildern zu extrahieren.

3D-Feinabstimmungsergebnisse für CC-CCII- und RICORD-Datensätze mit vollständigen Trainingsdaten

Die Ergebnisse medizinischer semantischer Segmentierungsexperimente zeigen, dassBei den Ergebnissen der 2D-medizinischen semantischen Segmentierung ist UniMedI deutlich besser als der aktuelle hochmoderne MGCA-Algorithmus. Bei Verwendung von 1% Trainingsdaten erreicht UniMedI einen Dice von 67,8%. In den Ergebnissen der 3D-medizinischen semantischen Segmentierung verbessert UniMedI die Genauigkeit im BCV-Datensatz gegenüber UniMiss um 0,6% bzw. 0,4%, wenn die begrenzte Labelverfügbarkeit 40% bzw. 100% beträgt, wie in der folgenden Abbildung dargestellt.

* Experiment zur medizinischen semantischen Segmentierung: Wird verwendet, um die Segmentierungsleistung anhand von RSNA-Pneumonie-Frontalansichten des Brustkorbs und BCV-Datensätzen (einschließlich 50 CT-Scans) zu bewerten.

Diese Ergebnisse bestätigen die deutliche Überlegenheit von UniMedI bei der Extraktion aussagekräftiger Merkmale und der effektiven Nutzung begrenzter annotierter Daten und demonstrieren seine höhere Kompetenz bei der Nutzung lokaler Darstellungen für Aufgaben der semantischen Segmentierung.

Technologie trägt zur Vertiefung der Verbindung zwischen VLP und medizinischer Bildgebung bei

Visuelle Sprachvortrainingsmodelle entwickeln sich zu einer wichtigen Brücke zwischen Computervision und natürlicher Sprachverarbeitung, insbesondere im Bereich der medizinischen Bildgebung. Durch Vortraining mit umfangreichen Bild- und Sprachdaten können sie die komplexe Beziehung zwischen komplexen medizinischen Bildern und Texten problemlos erfassen und so Ärzte bei der Bilddiagnose unterstützen, Unternehmen bei der Arzneimittelforschung und -entwicklung helfen oder ein intelligentes medizinisches Bildmanagement realisieren.

Die Tatsache, dass diese Forschung für eine hochkarätige internationale Konferenz ausgewählt wurde, beweist auch aus einer anderen Perspektive das enorme Potenzial von VLP an der Schnittstelle zwischen künstlicher Intelligenz und medizinischer Bildgebung.Tatsächlich haben neben der engen Zusammenarbeit zwischen den beiden Teams der Zhejiang-Universität und Microsoft Research Asia viele Labore auf diesem Gebiet bereits Durchbrüche erzielt.

Beispielsweise wurde UniMiss, eine der in der obigen Studie erwähnten fortschrittlichen Methoden, im ECCV des Jahres 2022 von einem Team der University of Adelaide und der School of Computer Science der Northwestern Polytechnical University unter dem Titel „UniMiss: Universal Medical Self-Supervised Learning via Breaking Dimensionality Barrier“ veröffentlicht.

Papieradresse:
https://dl.acm.org/doi/abs/10.1007/978-3-031-19803-8_33

In dieser Studie befürworten die Autoren die Verwendung einer großen Anzahl von 2D-Bildern, um den Mangel an 3D-Daten auszugleichen, mit dem Ziel, ein allgemeines medizinisches, selbstüberwachtes Rahmenwerk für Ausdruckslernen namens UniMiss zu etablieren.Experimentelle Ergebnisse zeigen, dass UniMiss gegenüber dem ImageNet-Vortraining und anderen fortgeschrittenen SSL-Konkurrenten (Self-Supervised Learning) große Vorteile hat. Bei Aufgaben zur 2D/3D-Bildanalyse im medizinischen Bereich führen sowohl die Segmentierung als auch die Klassifizierung zufriedenstellende Ergebnisse.

Darüber hinaus führte das Team im Juli dieses Jahres eine neue Forschungsrunde zu UniMiss durch und schlug UniMiss+ vor. Aktuell wurden die entsprechenden Ergebnisse in der renommierten internationalen Fachzeitschrift IEEE Transactions on Pattern Analysis and Machine Intelligence unter dem Titel „UniMiSS+: Universal Medical Self-Supervised Learning From Cross-Dimensional Unpaired Data“ veröffentlicht.

Papieradresse:
https://ieeexplore.ieee.org/document/10617802

In der neuesten Forschung führte das Team in UniMiss+ die Technologie zur digitalen Rekonstruktion von Röntgenfilmen ein, um Röntgenbilder von CT-Scans zu simulieren und so auf gepaarte CT- und Röntgenbilddaten zuzugreifen. Dies ist eine enorme Verbesserung gegenüber der vorherigen UniMiss-Generation.

Kurz gesagt, die einschlägige wissenschaftliche Forschung zur Integration künstlicher Intelligenz und medizinischer Bilder ist noch in vollem Gange. Mit der Zeit werden diese Errungenschaften in Anwendungen umgesetzt und in realen medizinischen Szenarien implementiert, wodurch sie zu neuen Werkzeugen werden, die medizinischem Personal, Patienten und Unternehmen zugute kommen.