HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

MedVista3D: Vision-Sprache-Modellierung zur Reduzierung diagnostischer Fehler bei der Erkennung, Interpretation und Dokumentation von Erkrankungen in 3D-CT-Aufnahmen

Yuheng Li Yenho Chen Yuxiang Lai Jike Zhong Vanessa Wildman Xiaofeng Yang

MedVista3D: Vision-Sprache-Modellierung zur Reduzierung diagnostischer Fehler bei der Erkennung, Interpretation und Dokumentation von Erkrankungen in 3D-CT-Aufnahmen

Abstract

Radiologische Diagnosefehler – unter anderem Unterlesungen, inattentionelle Blindheit und Kommunikationsfehler – bleiben in der klinischen Praxis weit verbreitet. Diese Probleme resultieren oft aus übersehenen lokalen Anomalien, begrenztem globalen Kontext und variabler Berichtsprache. Diese Herausforderungen werden bei 3D-Bildgebung besonders deutlich, bei der Kliniker pro Untersuchung Hunderte von Schnitten analysieren müssen. Die Bewältigung dieser Probleme erfordert Systeme mit präziser lokaler Erkennung, globaler Volumen-level-Reasoning-Fähigkeit sowie semantisch konsistenter natürlicher Sprachberichterstattung. Bisherige 3D-Vision-Sprache-Modelle sind jedoch nicht in der Lage, alle drei Anforderungen gleichzeitig zu erfüllen: Sie fehlen an einer integrierten lokalen-globalen Wahrnehmung für räumliches Reasoning und haben Schwierigkeiten mit der Variabilität und dem Rauschen in unvorgereinigten radiologischen Berichten. Wir stellen MedVista3D vor, einen mehrskaligen, semantisch angereicherten Vision-Sprache-Vortrainierungsrahmen für die 3D-CT-Analyse. Um eine gemeinsame Erkennung von Erkrankungen und eine ganzheitliche Interpretation zu ermöglichen, führt MedVista3D sowohl lokale als auch globale Bild-Text-Ausrichtung durch, um feinabgestimmte Repräsentationen im Kontext des gesamten Volumens zu lernen. Zur Bewältigung der Berichtsvariabilität wenden wir Neuschreibungen mittels Sprachmodellen an und führen eine Radiologie-Semantik-Übereinstimmungs-Bank ein, um semantikbewusste Ausrichtung zu gewährleisten. MedVista3D erreicht Spitzenleistungen bei der Zero-Shot-Erkrankungsklassifizierung, Berichtsretrieval und medizinischem visuellem Fragen-Antworten und zeigt eine gute Übertragbarkeit auf Organsegmentierung und Prognosevorhersage. Der Quellcode und die Datensätze werden veröffentlicht.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MedVista3D: Vision-Sprache-Modellierung zur Reduzierung diagnostischer Fehler bei der Erkennung, Interpretation und Dokumentation von Erkrankungen in 3D-CT-Aufnahmen | Forschungsarbeiten | HyperAI