vor 2 Monaten

Hierarchische textbedingte Bildgenerierung mit CLIP-Latenten

Aditya Ramesh; Prafulla Dhariwal; Alex Nichol; Casey Chu; Mark Chen

Abstract

Kontrastive Modelle wie CLIP haben gezeigt, dass sie robuste Darstellungen von Bildern lernen können, die sowohl Semantik als auch Stil erfassen. Um diese Darstellungen für die Bildgenerierung zu nutzen, schlagen wir ein zweistufiges Modell vor: einen Vorerzeuger (Prior), der eine CLIP-Bild-Darstellung auf Grundlage einer Textunterschrift erzeugt, und einen Dekoder, der ein Bild unter Berücksichtigung der Bild-Darstellung generiert. Wir zeigen, dass die explizite Erzeugung von Bild-Darstellungen die Vielfalt der Bilder verbessert, wobei der Verlust an Fotorealismus und Übereinstimmung mit der Textunterschrift minimal ist. Unsere Dekoder, die auf Bild-Darstellungen konditioniert sind, können auch Variationen eines Bildes erzeugen, die sowohl dessen Semantik als auch Stil beibehalten, während sie nicht wesentliche Details variieren lassen, die in der Bild-Darstellung nicht enthalten sind. Zudem ermöglicht der gemeinsame Einbettungsraum von CLIP sprachgesteuerte Bildmanipulationen in einem zero-shot-Szenario. Für den Dekoder verwenden wir Diffusionsmodelle und experimentieren sowohl mit autoregressiven als auch mit Diffusionsmodellen für den Vorerzeuger (Prior). Dabei stellen wir fest, dass letztere computationally effizienter sind und bessere Proben erzeugen.