SMMILE: Eine expertengesteuerte Benchmarke für multimodales medizinisches In-Context-Lernen

Multimodales In-Context-Lernen (ICL) bleibt trotz seines erheblichen Potenzials für Bereiche wie die Medizin unterforscht. Kliniker begegnen routinemäßig diversen, spezialisierten Aufgaben, die eine Anpassung an wenige Beispiele erfordern, wie zum Beispiel Erkenntnisse aus wenigen relevanten vorherigen Fällen zu ziehen oder eine begrenzte Reihe von Differentialdiagnosen zu berücksichtigen. Obwohl multimodale große Sprachmodelle (MLLMs) Fortschritte bei der medizinischen visuellen Fragebeantwortung (VQA) gezeigt haben, ist ihre Fähigkeit, multimodale Aufgaben aus dem Kontext zu lernen, weitgehend unbekannt. Wir stellen SMMILE vor, den ersten von Experten gesteuerten multimodalen ICL-Benchmark für medizinische Aufgaben. Elf medizinische Experten erstellten Probleme, die jeweils eine multimodale Abfrage und multimodale in-Kontext-Beispiele als Aufgabendemonstrationen enthalten. SMMILE umfasst 111 Probleme (517 Frage-Bild-Antwort-Tripel), die sechs medizinische Fachgebiete und 13 Bildgebungsmethoden abdecken. Wir führen zudem SMMILE++ ein, eine erweiterte Variante mit 1038 permutierten Problemen. Eine umfassende Bewertung von 15 MLLMs zeigt, dass die meisten Modelle in medizinischen Aufgaben nur mäßige bis schlechte Fähigkeiten zum multimodal-en In-Context-Lernen aufweisen. In offenen Evaluierungen trägt ICL durchschnittlich nur 8 % Verbesserung im Vergleich zu Zero-Shot auf SMMILE und 9,4 % auf SMMILE++ bei. Wir beobachten eine Anfälligkeit für irrelevante in-Kontext-Beispiele: Ein einzelnes störendes oder irrelevantes Beispiel kann die Leistung um bis zu 9,5 % verschlechtern. Zudem zeigt sich ein Aktualitätsverzerrungseffekt in der Reihenfolge der Beispiele: Die Platzierung des relevantesten Beispiels am Ende kann zu erheblichen Leistungsverbesserungen von bis zu 71 % führen. Unsere Ergebnisse verdeutlichen kritische Einschränkungen und Verzerrungen der aktuellen MLLMs beim Lernen multimodaler medizinischer Aufgaben aus dem Kontext.