Medizinischer Slice-Transformer: Verbesserte Diagnose und Erklärbarkeit bei 3D-Medizinischen Bildern mit DINOv2

MRT und CT sind wesentliche klinische Querschnittsbildgebungstechniken zur Diagnose komplexer Erkrankungen. Allerdings sind große 3D-Datensätze mit Annotationen für tiefes Lernen selten. Obwohl Methoden wie DINOv2 für die Analyse von 2D-Bildern ermutigend sind, wurden diese Methoden bisher nicht auf 3D-medizinische Bilder angewendet. Zudem fehlt es tiefen Lernmodellen oft an Erklärbarkeit aufgrund ihrer "Black-Box"-Natur. Diese Studie zielt darauf ab, 2D-selbstüberwachte Modelle, insbesondere DINOv2, für die 3D-medizinische Bildgebung zu erweitern und deren Potenzial für erklärbare Ergebnisse zu evaluieren. Wir stellen den Rahmen der medizinischen Slicetransformer (MST) vor, um 2D-selbstüberwachte Modelle für die Analyse von 3D-medizinischen Bildern anzupassen. MST kombiniert eine Transformer-Architektur mit einem 2D-Feature-Extractor, z.B. DINOv2. Wir bewerten seine diagnostische Leistung im Vergleich zu einem 3D-faltenden neuronalen Netz (3D ResNet) anhand dreier klinischer Datensätze: Mammographie-MRT (651 Patienten), Thorax-CT (722 Patienten) und Knie-MRT (1199 Patienten). Beide Methoden wurden getestet, um Brustkrebs zu diagnostizieren, die Würdigkeit von Lungenknoten vorherzusagen und Meniskusrisse zu erkennen. Die diagnostische Leistung wurde durch Berechnung des Flächeninhalts unter der Empfängnischarakteristik-Kurve (AUC) evaluiert. Die Erklärbarkeit wurde durch eine qualitative Bewertung der Saliencymaps durch einen Radiologen auf Basis der Schicht- und Läsionskorrektheit bewertet. P-Werte wurden mithilfe des DeLong-Tests berechnet.MST erreichte höhere AUC-Werte im Vergleich zu ResNet in allen drei Datensätzen: Mammographie (0,94 ± 0,01 vs. 0,91 ± 0,02, P=0,02), Thorax (0,95 ± 0,01 vs. 0,92 ± 0,02, P=0,13) und Knie (0,85 ± 0,04 vs. 0,69 ± 0,05, P=0,001). Die Saliencymaps waren bei MST konsequent präziser und anatomisch korrekter als bei ResNet. Selbstüberwachte 2D-Modelle wie DINOv2 können effektiv mittels MST für die 3D-medizinische Bildgebung angepasst werden und bieten verglichen mit faltenden neuronalen Netzen verbesserte diagnostische Genauigkeit und Erklärbarkeit.