HyperAIHyperAI
vor 2 Monaten

Plug-and-Play-Diffusionsmerkmale für textgesteuerte Bild-zu-Bild-Übersetzung

Narek Tumanyan; Michal Geyer; Shai Bagon; Tali Dekel
Plug-and-Play-Diffusionsmerkmale für textgesteuerte Bild-zu-Bild-Übersetzung
Abstract

Großskalige Text-zu-Bild-Generierungsmodelle stellen einen revolutionären Meilenstein in der Entwicklung von generativer KI dar, indem sie es uns ermöglichen, vielfältige Bilder zu erzeugen, die hoch komplexe visuelle Konzepte vermitteln. Allerdings stellt die Bereitstellung von Kontrolle über das generierte Inhaltsmaterial für Benutzer eine entscheidende Herausforderung bei der Nutzung solcher Modelle für realweltliche Inhaltserschaffungsaufgaben dar. In dieser Arbeit präsentieren wir ein neues Framework, das Text-zu-Bild-Synthese in den Bereich der Bild-zu-Bild-Übersetzung erweitert – gegeben ein Leitbild und ein Zieltextanweisung, nutzt unsere Methode die Leistungsfähigkeit eines vorab trainierten Text-zu-Bild-Diffusionsmodells, um ein neues Bild zu generieren, das dem Zieltext entspricht und gleichzeitig die semantische Struktur des Quellbildes beibehält. Insbesondere beobachten und zeigen wir empirisch, dass durch die Manipulation räumlicher Merkmale und deren Selbst-Aufmerksamkeit innerhalb des Modells eine feingranulare Kontrolle über die generierte Struktur erreicht werden kann. Dies führt zu einem einfachen und effektiven Ansatz, bei dem Merkmale aus dem Leitbild direkt in den Generierungsprozess des Zielbildes eingespeist werden, ohne dass zusätzliches Training oder Feinabstimmung erforderlich ist und sowohl für reale als auch für generierte Leitbilder anwendbar ist. Wir demonstrieren hochwertige Ergebnisse bei vielfältigen textgesteuerten Bildübersetzungsaufgaben, einschließlich der Übersetzung von Skizzen, groben Zeichnungen und Animationen in realistische Bilder, Änderungen der Klasse und des Aussehens von Objekten in einem gegebenen Bild sowie Modifikationen globaler Eigenschaften wie Beleuchtung und Farbe.