Anweisungsgeleitete Läsionssegmentierung für Brust-Röntgenaufnahmen mit automatisch generiertem, großskaligem Datensatz
Geon Choi Hangyul Yoon Hyunju Shin Hyunki Park Sang Hoon Seo Eunho Yang Edward Choi

Abstract
Die Anwendbarkeit aktueller Segmentierungsmodelle für Läsionen in Thorax-Röntgenaufnahmen (CXR) ist sowohl durch eine geringe Anzahl an Ziellabels als auch durch die Abhängigkeit von langen, detaillierten Experten-Eingaben in Textform begrenzt, was einen erheblichen Hindernis für den praktischen Einsatz darstellt. Um diese Einschränkungen zu überwinden, stellen wir ein neues Paradigma vor: instruction-gesteuerte Läsionen-Segmentierung (ILS), das darauf abzielt, verschiedene Läsionstypen basierend auf einfachen, benutzerfreundlichen Anweisungen zu segmentieren. Im Rahmen dieses Paradigmas erstellen wir MIMIC-ILS, das erste großskalige Instruction-Answer-Datensatz für die Segmentierung von Läsionen in CXR, mithilfe eines vollständig automatisierten multimodalen Pipelines, die Annotations aus Thorax-Röntgenaufnahmen und ihren entsprechenden Berichten generiert. MIMIC-ILS enthält 1,1 Millionen Instruction-Answer-Paare, abgeleitet aus 192.000 Bildern und 91.000 eindeutigen Segmentierungsmasken, und deckt sieben Hauptläsionstypen ab. Um die praktische Nützlichkeit empirisch zu belegen, führen wir ROSALIA ein, ein vision-sprachliches Modell, das auf MIMIC-ILS fine-tuned wurde. ROSALIA kann diverse Läsionen segmentieren und im Anschluss an Benutzeranweisungen textbasierte Erklärungen liefern. Das Modell erreicht eine hohe Genauigkeit sowohl in der Segmentierung als auch in der Textgenerierung in unserer neu vorgeschlagenen Aufgabe und unterstreicht somit die Wirksamkeit unserer Pipeline sowie den Wert von MIMIC-ILS als grundlegendes Ressourcenwerkzeug für die pixelgenaue Zuordnung von Läsionen in CXR.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.