Command Palette
Search for a command to run...
Med-Banana-50K: Ein multimodales, großskaliges Datensatz für textgesteuerte medizinische Bildbearbeitung
Med-Banana-50K: Ein multimodales, großskaliges Datensatz für textgesteuerte medizinische Bildbearbeitung
Zhihui Chen Mengling Feng
Abstract
Die Bearbeitung medizinischer Bilder ist zu einer zentralen Technologie mit vielfältigen Anwendungen in der Datenaugmentation, der Modellinterpretierbarkeit, der medizinischen Ausbildung und der Behandlungssimulation geworden. Doch der Mangel an großskaligen, hochwertigen und öffentlich zugänglichen Datensätzen, die speziell für medizinische Anwendungen unter strengen anatomischen und klinischen Vorgaben entwickelt wurden, hat die Fortschritte in diesem Bereich erheblich behindert. Um diese Lücke zu schließen, stellen wir Med-Banana-50K vor – einen umfassenden Datensatz mit über 50.000 medizinisch geprüften Bildbearbeitungen, die sich über Thorax-Röntgenaufnahmen, Gehirn-MRTs und Funduskopien bei 23 verschiedenen Erkrankungen erstrecken. Jeder Datensatz unterstützt bidirektionale Läsionsbearbeitung (Hinzufügen und Entfernen) und wurde mithilfe von Gemini-2.5-Flash-Image auf Basis realer klinischer Bilder erstellt. Ein zentrales Merkmal unseres Datensatzes ist ein medizinisch fundiertes Qualitätskontrollprotokoll: Wir setzen einen LLM-as-Judge-Evaluierungsansatz ein, der Kriterien wie Anweisungskonformität, strukturelle Plausibilität, Bildrealismus und Erhalt der Fidelität berücksichtigt, ergänzt durch bis zu fünf Runden iterativer Verbesserung. Zudem enthält Med-Banana-50K etwa 37.000 gescheiterte Bearbeitungsversuche mit vollständigen Evaluierungsprotokollen, um Forschung zu Präferenzlernen und Modellanpassung zu unterstützen. Durch die Bereitstellung einer großskaligen, medizinisch strengen und vollständig dokumentierten Ressource legt Med-Banana-50K eine entscheidende Grundlage für die Entwicklung und Evaluation zuverlässiger Systeme zur medizinischen Bildbearbeitung.