Command Palette
Search for a command to run...
MedVista3D: Vision-Sprache-Modellierung zur Reduzierung diagnostischer Fehler bei der Erkennung, Interpretation und Dokumentation von Erkrankungen in 3D-CT-Aufnahmen
Yuheng Li Yenho Chen Yuxiang Lai Jike Zhong Vanessa Wildman Xiaofeng Yang

Abstract
Radiologische Diagnosefehler – unter anderem Unterlesungen, inattentionelle Blindheit und Kommunikationsfehler – bleiben in der klinischen Praxis weit verbreitet. Diese Probleme resultieren oft aus übersehenen lokalen Anomalien, begrenztem globalen Kontext und variabler Berichtsprache. Diese Herausforderungen werden bei 3D-Bildgebung besonders deutlich, bei der Kliniker pro Untersuchung Hunderte von Schnitten analysieren müssen. Die Bewältigung dieser Probleme erfordert Systeme mit präziser lokaler Erkennung, globaler Volumen-level-Reasoning-Fähigkeit sowie semantisch konsistenter natürlicher Sprachberichterstattung. Bisherige 3D-Vision-Sprache-Modelle sind jedoch nicht in der Lage, alle drei Anforderungen gleichzeitig zu erfüllen: Sie fehlen an einer integrierten lokalen-globalen Wahrnehmung für räumliches Reasoning und haben Schwierigkeiten mit der Variabilität und dem Rauschen in unvorgereinigten radiologischen Berichten. Wir stellen MedVista3D vor, einen mehrskaligen, semantisch angereicherten Vision-Sprache-Vortrainierungsrahmen für die 3D-CT-Analyse. Um eine gemeinsame Erkennung von Erkrankungen und eine ganzheitliche Interpretation zu ermöglichen, führt MedVista3D sowohl lokale als auch globale Bild-Text-Ausrichtung durch, um feinabgestimmte Repräsentationen im Kontext des gesamten Volumens zu lernen. Zur Bewältigung der Berichtsvariabilität wenden wir Neuschreibungen mittels Sprachmodellen an und führen eine Radiologie-Semantik-Übereinstimmungs-Bank ein, um semantikbewusste Ausrichtung zu gewährleisten. MedVista3D erreicht Spitzenleistungen bei der Zero-Shot-Erkrankungsklassifizierung, Berichtsretrieval und medizinischem visuellem Fragen-Antworten und zeigt eine gute Übertragbarkeit auf Organsegmentierung und Prognosevorhersage. Der Quellcode und die Datensätze werden veröffentlicht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.