vor 2 Monaten

Verschobene Diffusion für die Text-zu-Bild-Generierung

Yufan Zhou; Bingchen Liu; Yizhe Zhu; Xiao Yang; Changyou Chen; Jinhui Xu

Abstract

Wir stellen Corgi vor, eine neuartige Methode zur Text-zu-Bild-Generierung. Corgi basiert auf unserem vorgeschlagenen verschobenen Diffusionsmodell, das eine bessere Bild-Embedding-Generierung aus Eingabetexten erreicht. Im Gegensatz zum Baseline-Diffusionsmodell, das in DALL-E 2 verwendet wird, kodiert unsere Methode nahtlos Vorwissen des vortrainierten CLIP-Modells in ihrem Diffusionsprozess, indem sie eine neue Initialisierungsverteilung und einen neuen Übergangsschritt der Diffusion entworfen hat. Verglichen mit dem starken Baseline von DALL-E 2 übertrifft unsere Methode sowohl in Effizienz als auch in Effektivität bei der Generierung von Bild-Embeddings aus Texten, was zu einer verbesserten Text-zu-Bild-Generierung führt. Umfangreiche Großskalenauswertungen wurden durchgeführt und sowohl anhand quantitativer Maße als auch durch menschliche Bewertung evaluiert, was eine stärkere Generierungsfähigkeit unserer Methode im Vergleich zu bestehenden Ansätzen zeigt. Darüber hinaus ermöglicht unser Modell die semi-supervisierte und sprachfreie Trainingsmethode für die Text-zu-Bild-Generierung, bei der nur ein Teil oder gar keine Bilder im Trainingsdatensatz mit einer zugehörigen Beschriftung versehen sind. Mit nur 1,7 % der Bilder beschriftet erzielt unser semi-supervisiertes Modell FID-Ergebnisse, die vergleichbar mit denen von DALL-E 2 bei der zero-shot Text-zu-Bild-Generierung auf MS-COCO sind. Corgi erreicht zudem neue Standartechniken (state-of-the-art) bei verschiedenen Datensätzen in nachgeschalteten sprachfreien Text-zu-Bild-Generierungsaufgaben und übertrifft die bisherige Methode Lafite deutlich.