HyperAIHyperAI

Command Palette

Search for a command to run...

Hierarchische textbedingte Bildgenerierung mit CLIP-Latenten

Aditya Ramesh* Prafulla Dhariwal* Alex Nichol* Casey Chu* Mark Chen

Zusammenfassung

Kontrastive Modelle wie CLIP haben gezeigt, dass sie robuste Darstellungen von Bildern lernen können, die sowohl Semantik als auch Stil erfassen. Um diese Darstellungen für die Bildgenerierung zu nutzen, schlagen wir ein zweistufiges Modell vor: einen Vorerzeuger (Prior), der eine CLIP-Bild-Darstellung auf Grundlage einer Textunterschrift erzeugt, und einen Dekoder, der ein Bild unter Berücksichtigung der Bild-Darstellung generiert. Wir zeigen, dass die explizite Erzeugung von Bild-Darstellungen die Vielfalt der Bilder verbessert, wobei der Verlust an Fotorealismus und Übereinstimmung mit der Textunterschrift minimal ist. Unsere Dekoder, die auf Bild-Darstellungen konditioniert sind, können auch Variationen eines Bildes erzeugen, die sowohl dessen Semantik als auch Stil beibehalten, während sie nicht wesentliche Details variieren lassen, die in der Bild-Darstellung nicht enthalten sind. Zudem ermöglicht der gemeinsame Einbettungsraum von CLIP sprachgesteuerte Bildmanipulationen in einem zero-shot-Szenario. Für den Dekoder verwenden wir Diffusionsmodelle und experimentieren sowohl mit autoregressiven als auch mit Diffusionsmodellen für den Vorerzeuger (Prior). Dabei stellen wir fest, dass letztere computationally effizienter sind und bessere Proben erzeugen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp