vor 2 Monaten

HuatuoGPT-Vision, dem Einbringen medizinischen visuellen Wissens in multimodale LLMs in Skalierung näher kommend

Details der Forschungsarbeit anzeigen Code anzeigen

{Guiming Hardy Chen Shunian Chen Anningzhe Gao Ruyi Ouyang Chi Gui Benyou Wang Xiang Wan Guangjun Yu Ke Ji Zhenyang Cai

HuatuoGPT-Vision, dem Einbringen medizinischen visuellen Wissens in multimodale LLMs in Skalierung näher kommend

Abstract

Die rasante Entwicklung multimodaler großer Sprachmodelle (MLLMs), wie beispielsweise GPT-4V, hat erhebliche Fortschritte ermöglicht. Dennoch stehen diese Modelle vor erheblichen Herausforderungen im medizinischen Bereich, bedingt durch Mängel hinsichtlich Quantität und Qualität medizinischer Bild-Text-Daten, die wiederum auf Datenschutzbedenken und hohe Anmerkungskosten zurückzuführen sind. Obwohl bahnbrechende Ansätze auf die großskaligen, pseudonymisierten medizinischen Bild-Text-Paare aus PubMed zurückgreifen, um diese Einschränkungen zu überwinden, bleiben sie aufgrund inhärenter Datenrauschen unzureichend. Um diesem Problem zu begegnen, haben wir medizinische Bild-Text-Paare aus PubMed verfeinert und MLLMs (GPT-4V) in einer „offenen“ (unblinded) Form eingesetzt, um die Daten zu entrauschen und neu zu strukturieren. Dadurch entstand die PubMedVision-Datenbank mit 1,3 Millionen medizinischen VQA-Beispielen. Unsere Validierung zeigt: (1) PubMedVision kann die multimodalen medizinischen Fähigkeiten aktueller MLLMs erheblich verbessern und zeigt signifikante Fortschritte in Benchmarks wie der MMMU-Health-and-Medicine-Spur; (2) durch manuelle Überprüfungen durch medizinische Experten sowie empirische Ergebnisse wird die überlegene Datenqualität unseres Datensatzes gegenüber anderen Datenerzeugungsmethoden bestätigt. Mit Hilfe von PubMedVision trainieren wir ein medizinisches MLLM mit 34 Milliarden Parametern, HuatuoGPT-Vision, das sich unter den Open-Source-MLLMs in medizinischen multimodalen Szenarien als überlegen erweist.

Code-Repositories

freedomintelligence/huatuogpt-vision

Offiziell

pytorch

In GitHub erwähnt

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette