MultiRef: Steuerbare Bildgenerierung mit mehreren visuellen Referenzen

Visuelle Designer beziehen ihre Inspiration naturgemäß aus mehreren visuellen Referenzen, kombinieren diverse Elemente und ästhetische Prinzipien, um Kunstwerke zu schaffen. Derzeitige Bildgenerierungsframeworks stützen sich jedoch überwiegend auf Eingaben mit nur einer Quelle – entweder Textprompts oder einzelne Referenzbilder. In diesem Artikel konzentrieren wir uns auf die Aufgabe der kontrollierten Bildgenerierung unter Verwendung mehrerer visueller Referenzen. Wir stellen MultiRef-bench vor, einen rigorosen Evaluationsframework, der aus 990 synthetischen und 1.000 realen Beispielen besteht und die Integration visueller Inhalte aus mehreren Referenzbildern erfordert. Die synthetischen Beispiele werden durch unsere Daten-Engine RefBlend künstlich generiert, wobei zehn verschiedene Referenztypen und 33 unterschiedliche Kombinationen verwendet werden. Auf Basis von RefBlend erstellen wir zudem eine Datensammlung namens MultiRef mit 38.000 hochwertigen Bildern, um weitere Forschungsarbeiten zu unterstützen. Unsere Experimente an drei miteinander verflochtenen Bild-Text-Modellen (OmniGen, ACE und Show-o) sowie sechs agentenbasierten Frameworks (z. B. ChatDiT und LLM + SD) zeigen, dass selbst state-of-the-art-Systeme Schwierigkeiten bei der Verarbeitung mehrerer Referenzen haben: Das beste Modell, OmniGen, erreicht im Durchschnitt nur 66,6 % bei den synthetischen Beispielen und 79,0 % bei realen Szenarien im Vergleich zum Golden-Standard. Diese Ergebnisse liefern wertvolle Hinweise für die Entwicklung flexiblerer und menschenähnlicher kreativer Werkzeuge, die mehrere Quellen visueller Inspiration effektiv integrieren können. Die Datensammlung ist öffentlich zugänglich unter: https://multiref.github.io/.