HyperAIHyperAI

Command Palette

Search for a command to run...

Verschobene Diffusion für die Text-zu-Bild-Generierung

Yufan Zhou Bingchen Liu Yizhe Zhu Xiao Yang Changyou Chen Jinhui Xu

Zusammenfassung

Wir stellen Corgi vor, eine neuartige Methode zur Text-zu-Bild-Generierung. Corgi basiert auf unserem vorgeschlagenen verschobenen Diffusionsmodell, das eine bessere Bild-Embedding-Generierung aus Eingabetexten erreicht. Im Gegensatz zum Baseline-Diffusionsmodell, das in DALL-E 2 verwendet wird, kodiert unsere Methode nahtlos Vorwissen des vortrainierten CLIP-Modells in ihrem Diffusionsprozess, indem sie eine neue Initialisierungsverteilung und einen neuen Übergangsschritt der Diffusion entworfen hat. Verglichen mit dem starken Baseline von DALL-E 2 übertrifft unsere Methode sowohl in Effizienz als auch in Effektivität bei der Generierung von Bild-Embeddings aus Texten, was zu einer verbesserten Text-zu-Bild-Generierung führt. Umfangreiche Großskalenauswertungen wurden durchgeführt und sowohl anhand quantitativer Maße als auch durch menschliche Bewertung evaluiert, was eine stärkere Generierungsfähigkeit unserer Methode im Vergleich zu bestehenden Ansätzen zeigt. Darüber hinaus ermöglicht unser Modell die semi-supervisierte und sprachfreie Trainingsmethode für die Text-zu-Bild-Generierung, bei der nur ein Teil oder gar keine Bilder im Trainingsdatensatz mit einer zugehörigen Beschriftung versehen sind. Mit nur 1,7 % der Bilder beschriftet erzielt unser semi-supervisiertes Modell FID-Ergebnisse, die vergleichbar mit denen von DALL-E 2 bei der zero-shot Text-zu-Bild-Generierung auf MS-COCO sind. Corgi erreicht zudem neue Standartechniken (state-of-the-art) bei verschiedenen Datensätzen in nachgeschalteten sprachfreien Text-zu-Bild-Generierungsaufgaben und übertrifft die bisherige Methode Lafite deutlich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp