Fähigkeiten von Gemini-Modellen in der Medizin

Die Exzellenz in einer Vielzahl medizinischer Anwendungen stellt erhebliche Herausforderungen für KI dar und erfordert fortgeschrittene Schlussfolgerungsfähigkeiten, Zugriff auf aktuelle medizinische Fachkenntnisse sowie das Verständnis komplexer multimodaler Daten. Gemini-Modelle, die über starke allgemeine Fähigkeiten in der multimodalen und langen Kontext-Reasoning verfügen, bieten erregende Möglichkeiten im medizinischen Bereich. Aufbauend auf diesen zentralen Stärken von Gemini stellen wir Med-Gemini vor – eine Familie hochleistungsfähiger multimodaler Modelle, die speziell für medizinische Anwendungen entwickelt wurden und die nahtloses Web-Suchen nutzen sowie effizient an neue Modalitäten mittels benutzerdefinierter Encoder angepasst werden können. Wir evaluieren Med-Gemini an 14 medizinischen Benchmarks und erreichen dort auf 10 von ihnen neue State-of-the-Art (SoTA)-Leistungen. Zudem übertrifft Med-Gemini die GPT-4-Modellfamilie auf allen Benchmarks, bei denen ein direkter Vergleich möglich ist, oft mit erheblichem Abstand. Auf dem populären MedQA-(USMLE)-Benchmark erreicht unser bestleistendes Med-Gemini-Modell eine SoTA-Genauigkeit von 91,1 %, wobei eine neuartige unsicherheitsgeleitete Suchstrategie eingesetzt wird. Auf sieben multimodalen Benchmarks, darunter die NEJM Image Challenges und MMMU (Gesundheit & Medizin), übertrifft Med-Gemini GPT-4V im Durchschnitt um 44,5 % relativ. Wir demonstrieren die Wirksamkeit der langen Kontextfähigkeit von Med-Gemini anhand einer SoTA-Leistung bei einer „Needle-in-a-Haystack“-Retrieval-Aufgabe aus langen, pseudonymisierten Gesundheitsakten sowie bei der Fragebeantwortung zu medizinischen Videos – hierbei übertrifft es vorherige spezialisierte Methoden, die lediglich auf In-Context-Learning basieren. Schließlich zeigt die Leistung von Med-Gemini, dass das Modell reale praktische Anwendungsmöglichkeiten besitzt: So übertrifft es menschliche Experten bei Aufgaben wie der Zusammenfassung medizinischer Texte und demonstriert vielversprechendes Potenzial für multimodale medizinische Dialogsysteme, medizinische Forschung und Ausbildung. Zusammenfassend liefert unsere Studie überzeugende Hinweise auf das Potenzial von Med-Gemini – dennoch wird eine weitere gründliche Evaluation unerlässlich sein, bevor eine Anwendung in diesem sicherheitskritischen Bereich realisiert werden kann.