Command Palette
Search for a command to run...
HuatuoGPT-Vision, dem Einbringen medizinischen visuellen Wissens in multimodale LLMs in Skalierung näher kommend

Abstract
Die rasante Entwicklung multimodaler großer Sprachmodelle (MLLMs), wie beispielsweise GPT-4V, hat erhebliche Fortschritte ermöglicht. Dennoch stehen diese Modelle vor erheblichen Herausforderungen im medizinischen Bereich, bedingt durch Mängel hinsichtlich Quantität und Qualität medizinischer Bild-Text-Daten, die wiederum auf Datenschutzbedenken und hohe Anmerkungskosten zurückzuführen sind. Obwohl bahnbrechende Ansätze auf die großskaligen, pseudonymisierten medizinischen Bild-Text-Paare aus PubMed zurückgreifen, um diese Einschränkungen zu überwinden, bleiben sie aufgrund inhärenter Datenrauschen unzureichend. Um diesem Problem zu begegnen, haben wir medizinische Bild-Text-Paare aus PubMed verfeinert und MLLMs (GPT-4V) in einer „offenen“ (unblinded) Form eingesetzt, um die Daten zu entrauschen und neu zu strukturieren. Dadurch entstand die PubMedVision-Datenbank mit 1,3 Millionen medizinischen VQA-Beispielen. Unsere Validierung zeigt: (1) PubMedVision kann die multimodalen medizinischen Fähigkeiten aktueller MLLMs erheblich verbessern und zeigt signifikante Fortschritte in Benchmarks wie der MMMU-Health-and-Medicine-Spur; (2) durch manuelle Überprüfungen durch medizinische Experten sowie empirische Ergebnisse wird die überlegene Datenqualität unseres Datensatzes gegenüber anderen Datenerzeugungsmethoden bestätigt. Mit Hilfe von PubMedVision trainieren wir ein medizinisches MLLM mit 34 Milliarden Parametern, HuatuoGPT-Vision, das sich unter den Open-Source-MLLMs in medizinischen multimodalen Szenarien als überlegen erweist.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.