HyperAIHyperAI

Command Palette

Search for a command to run...

MedGemma Technischer Bericht

Andrew Sellergren Sahar Kazemzadeh Tiam Jaroensri Atilla Kiraly Madeleine Traverse Timo Kohlberger Shawn Xu Fayaz Jamil

Zusammenfassung

Künstliche Intelligenz (KI) hat erhebliches Potenzial in der Anwendung im Gesundheitswesen, stellt jedoch aufgrund der vielfältigen Daten, komplexen Aufgaben und des Bedarfs, die Privatsphäre zu schützen, Herausforderungen bei ihrer Ausbildung und Implementierung. Grundmodelle, die sich gut bei medizinischen Aufgaben bewähren und weniger aufgabenbezogene Anpassungsdaten benötigen, sind entscheidend, um die Entwicklung von KI-Anwendungen im Gesundheitswesen zu beschleunigen. Wir stellen MedGemma vor, eine Sammlung von medizinischen Sehen-Sprache-Grundmodellen basierend auf Gemma 3 mit 4B und 27B Parametern. MedGemma zeigt fortgeschrittene medizinische Verständnis- und Schlussfolgerungsfähigkeiten in Bezug auf Bilder und Texte und übertreffen die Leistung ähnlicher generativer Modelle deutlich, während sie sich den Leistungen aufgabenbezogener Modelle annähern und gleichzeitig die allgemeinen Fähigkeiten der Basismodelle von Gemma 3 beibehalten. Bei Aufgaben außerhalb der Trainingsverteilung erreicht MedGemma eine Verbesserung von 2,6-10 % bei der medizinischen multimodalen Fragebeantwortung, 15,5-18,1 % bei der Klassifizierung von Befunden in Brust-Röntgenbildern und 10,8 % bei agentischen Bewertungen im Vergleich zu den Basismodellen. Das Feinjustieren von MedGemma verbessert die Leistung weiter in Unterdomänen: Es reduziert Fehler bei der Informationssuche in elektronischen Patientenakten um 50 % und erreicht vergleichbare Leistungen wie bestehende spezialisierte Methoden für die Klassifizierung von Pneumothorax und histopathologischen Bildausschnitten. Zudem führen wir MedSigLIP ein, einen aus SigLIP abgeleiteten visuellen Encoder, der für medizinische Anwendungen angepasst wurde. MedSigLIP unterstützt die visuellen Verständigungsfähigkeiten von MedGemma und erreicht als Encoder vergleichbare oder bessere Leistungen als spezialisierte medizinische Bildencoders. Zusammen genommen bietet die Sammlung MedGemma eine starke Grundlage für medizinische Bild- und Textfunktionen mit dem Potenzial, medizinische Forschung erheblich zu beschleunigen und die Entwicklung nachgeschalteter Anwendungen voranzutreiben. Die Sammlung MedGemma einschließlich Tutorials und Modellgewichten ist unter dieser https-URL verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp