HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

HuatuoGPT-Vision, dem Einbringen medizinischen visuellen Wissens in multimodale LLMs in Skalierung näher kommend

HuatuoGPT-Vision, dem Einbringen medizinischen visuellen Wissens in multimodale LLMs in Skalierung näher kommend

Abstract

Die rasante Entwicklung multimodaler großer Sprachmodelle (MLLMs), wie beispielsweise GPT-4V, hat erhebliche Fortschritte ermöglicht. Dennoch stehen diese Modelle vor erheblichen Herausforderungen im medizinischen Bereich, bedingt durch Mängel hinsichtlich Quantität und Qualität medizinischer Bild-Text-Daten, die wiederum auf Datenschutzbedenken und hohe Anmerkungskosten zurückzuführen sind. Obwohl bahnbrechende Ansätze auf die großskaligen, pseudonymisierten medizinischen Bild-Text-Paare aus PubMed zurückgreifen, um diese Einschränkungen zu überwinden, bleiben sie aufgrund inhärenter Datenrauschen unzureichend. Um diesem Problem zu begegnen, haben wir medizinische Bild-Text-Paare aus PubMed verfeinert und MLLMs (GPT-4V) in einer „offenen“ (unblinded) Form eingesetzt, um die Daten zu entrauschen und neu zu strukturieren. Dadurch entstand die PubMedVision-Datenbank mit 1,3 Millionen medizinischen VQA-Beispielen. Unsere Validierung zeigt: (1) PubMedVision kann die multimodalen medizinischen Fähigkeiten aktueller MLLMs erheblich verbessern und zeigt signifikante Fortschritte in Benchmarks wie der MMMU-Health-and-Medicine-Spur; (2) durch manuelle Überprüfungen durch medizinische Experten sowie empirische Ergebnisse wird die überlegene Datenqualität unseres Datensatzes gegenüber anderen Datenerzeugungsmethoden bestätigt. Mit Hilfe von PubMedVision trainieren wir ein medizinisches MLLM mit 34 Milliarden Parametern, HuatuoGPT-Vision, das sich unter den Open-Source-MLLMs in medizinischen multimodalen Szenarien als überlegen erweist.

Code-Repositories

freedomintelligence/huatuogpt-vision
Offiziell
pytorch
In GitHub erwähnt

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
HuatuoGPT-Vision, dem Einbringen medizinischen visuellen Wissens in multimodale LLMs in Skalierung näher kommend | Forschungsarbeiten | HyperAI