MedGemma Technischer Bericht

Künstliche Intelligenz (KI) hat erhebliches Potenzial in der Anwendung im Gesundheitswesen, stellt jedoch aufgrund der vielfältigen Daten, komplexen Aufgaben und des Bedarfs, die Privatsphäre zu schützen, Herausforderungen bei ihrer Ausbildung und Implementierung. Grundmodelle, die sich gut bei medizinischen Aufgaben bewähren und weniger aufgabenbezogene Anpassungsdaten benötigen, sind entscheidend, um die Entwicklung von KI-Anwendungen im Gesundheitswesen zu beschleunigen. Wir stellen MedGemma vor, eine Sammlung von medizinischen Sehen-Sprache-Grundmodellen basierend auf Gemma 3 mit 4B und 27B Parametern. MedGemma zeigt fortgeschrittene medizinische Verständnis- und Schlussfolgerungsfähigkeiten in Bezug auf Bilder und Texte und übertreffen die Leistung ähnlicher generativer Modelle deutlich, während sie sich den Leistungen aufgabenbezogener Modelle annähern und gleichzeitig die allgemeinen Fähigkeiten der Basismodelle von Gemma 3 beibehalten. Bei Aufgaben außerhalb der Trainingsverteilung erreicht MedGemma eine Verbesserung von 2,6-10 % bei der medizinischen multimodalen Fragebeantwortung, 15,5-18,1 % bei der Klassifizierung von Befunden in Brust-Röntgenbildern und 10,8 % bei agentischen Bewertungen im Vergleich zu den Basismodellen. Das Feinjustieren von MedGemma verbessert die Leistung weiter in Unterdomänen: Es reduziert Fehler bei der Informationssuche in elektronischen Patientenakten um 50 % und erreicht vergleichbare Leistungen wie bestehende spezialisierte Methoden für die Klassifizierung von Pneumothorax und histopathologischen Bildausschnitten. Zudem führen wir MedSigLIP ein, einen aus SigLIP abgeleiteten visuellen Encoder, der für medizinische Anwendungen angepasst wurde. MedSigLIP unterstützt die visuellen Verständigungsfähigkeiten von MedGemma und erreicht als Encoder vergleichbare oder bessere Leistungen als spezialisierte medizinische Bildencoders. Zusammen genommen bietet die Sammlung MedGemma eine starke Grundlage für medizinische Bild- und Textfunktionen mit dem Potenzial, medizinische Forschung erheblich zu beschleunigen und die Entwicklung nachgeschalteter Anwendungen voranzutreiben. Die Sammlung MedGemma einschließlich Tutorials und Modellgewichten ist unter dieser https-URL verfügbar.