eDiff-I: Text-to-Image Diffusionsmodelle mit einem Ensemble aus Experten-Denoisern

Großskalige, auf Diffusion basierende generative Modelle haben bedeutende Fortschritte bei der textbedingten Synthese hochauflösender Bilder ermöglicht. Aus zufälligem Rauschen heraus synthetisieren solche Text-zu-Bild-Diffusionsmodelle iterativ Bilder, wobei sie auf Textprompts konditioniert sind. Wir stellen fest, dass sich ihr Syntheseverhalten qualitativ während dieses Prozesses verändert: Zu Beginn der Generierung hängt die Erzeugung stark vom Textprompt ab, um textkonsistente Inhalte zu erzeugen, während im späteren Verlauf die Textkonditionierung nahezu vollständig ignoriert wird. Dies deutet darauf hin, dass die gemeinsame Nutzung von Modellparametern über den gesamten Generierungsprozess hinweg möglicherweise nicht optimal ist. Daher schlagen wir im Gegensatz zu bestehenden Ansätzen vor, eine Ensemble-Gruppe von Text-zu-Bild-Diffusionsmodellen zu trainieren, die jeweils für unterschiedliche Synthesestadien spezialisiert sind. Um die Trainingseffizienz zu gewährleisten, trainieren wir zunächst ein einzelnes Modell, das anschließend in spezialisierte Modelle aufgeteilt wird, die jeweils für spezifische Phasen des iterativen Generierungsprozesses optimiert werden. Unser Ensemble von Diffusionsmodellen, namens eDiff-I, erreicht eine verbesserte Textausrichtung, behält dabei jedoch denselben Rechenaufwand bei der Inferenz bei und bewahrt eine hohe visuelle Qualität. Auf dem Standardbenchmark übertrifft eDiff-I frühere großskalige Text-zu-Bild-Diffusionsmodelle. Darüber hinaus trainieren wir unser Modell, eine Vielzahl von Embeddings zur Konditionierung zu nutzen, darunter T5-Text-, CLIP-Text- und CLIP-Bild-Embeddings. Wir zeigen, dass diese verschiedenen Embeddings unterschiedliche Verhaltensweisen hervorrufen. Insbesondere ermöglicht das CLIP-Bild-Embedding eine intuitive Möglichkeit, den Stil eines Referenzbildes auf die Ziel-Ausgabe von Text-zu-Bild-Generierung zu übertragen. Schließlich präsentieren wir eine Technik, die die „Paint-with-Words“-Fähigkeit von eDiff-I ermöglicht: Ein Nutzer kann ein Wort im Eingabetext auswählen und es auf einer Leinwand „malen“, um so die Ausgabe zu steuern – eine äußerst praktische Methode zur Erzeugung eines gewünschten Bildes im Geiste. Die Projektseite ist unter https://deepimagination.cc/eDiff-I/ verfügbar.