HyperAIHyperAI

Command Palette

Search for a command to run...

MultiRef: Steuerbare Bildgenerierung mit mehreren visuellen Referenzen

Ruoxi Chen Dongping Chen Siyuan Wu Sinan Wang Shiyun Lang Petr Sushko Gaoyang Jiang Yao Wan Ranjay Krishna

Zusammenfassung

Visuelle Designer beziehen ihre Inspiration naturgemäß aus mehreren visuellen Referenzen, kombinieren diverse Elemente und ästhetische Prinzipien, um Kunstwerke zu schaffen. Derzeitige Bildgenerierungsframeworks stützen sich jedoch überwiegend auf Eingaben mit nur einer Quelle – entweder Textprompts oder einzelne Referenzbilder. In diesem Artikel konzentrieren wir uns auf die Aufgabe der kontrollierten Bildgenerierung unter Verwendung mehrerer visueller Referenzen. Wir stellen MultiRef-bench vor, einen rigorosen Evaluationsframework, der aus 990 synthetischen und 1.000 realen Beispielen besteht und die Integration visueller Inhalte aus mehreren Referenzbildern erfordert. Die synthetischen Beispiele werden durch unsere Daten-Engine RefBlend künstlich generiert, wobei zehn verschiedene Referenztypen und 33 unterschiedliche Kombinationen verwendet werden. Auf Basis von RefBlend erstellen wir zudem eine Datensammlung namens MultiRef mit 38.000 hochwertigen Bildern, um weitere Forschungsarbeiten zu unterstützen. Unsere Experimente an drei miteinander verflochtenen Bild-Text-Modellen (OmniGen, ACE und Show-o) sowie sechs agentenbasierten Frameworks (z. B. ChatDiT und LLM + SD) zeigen, dass selbst state-of-the-art-Systeme Schwierigkeiten bei der Verarbeitung mehrerer Referenzen haben: Das beste Modell, OmniGen, erreicht im Durchschnitt nur 66,6 % bei den synthetischen Beispielen und 79,0 % bei realen Szenarien im Vergleich zum Golden-Standard. Diese Ergebnisse liefern wertvolle Hinweise für die Entwicklung flexiblerer und menschenähnlicher kreativer Werkzeuge, die mehrere Quellen visueller Inspiration effektiv integrieren können. Die Datensammlung ist öffentlich zugänglich unter: https://multiref.github.io/.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MultiRef: Steuerbare Bildgenerierung mit mehreren visuellen Referenzen | Paper | HyperAI