HyperAIHyperAI

Command Palette

Search for a command to run...

Vektorquantisierte Diffusionsmodell für Text-zu-Bild-Synthese

Shuyang Gu Dong Chen Jianmin Bao Fang Wen Bo Zhang Dongdong Chen Lu Yuan Baining Guo

Zusammenfassung

Wir stellen das Vektorquantisierte Diffusionsmodell (VQ-Diffusion) für die Text-zu-Bild-Generierung vor. Dieses Verfahren basiert auf einem vektorquantisierten variationalen Autoencoder (VQ-VAE), dessen Latentraum durch eine bedingte Variante des kürzlich entwickelten Denoising Diffusion Probabilistic Models (DDPM) modelliert wird. Wir stellen fest, dass diese Latentraum-Methodik besonders gut für Text-zu-Bild-Generierungsaufgaben geeignet ist, da sie nicht nur den einseitigen Bias bestehender Methoden beseitigt, sondern auch die Implementierung einer Mask-and-Replace-Diffusionsstrategie ermöglicht, um die Akkumulation von Fehlern zu vermeiden – ein gravierendes Problem bei bestehenden Ansätzen. Unsere Experimente zeigen, dass das VQ-Diffusion im Vergleich zu herkömmlichen autoregressiven (AR) Modellen mit vergleichbarer Parameteranzahl signifikant bessere Ergebnisse bei der Text-zu-Bild-Generierung erzielt. Im Vergleich zu früheren GAN-basierten Ansätzen für Text-zu-Bild-Generierung kann unser VQ-Diffusion komplexere Szenen besser verarbeiten und die Qualität der synthetisierten Bilder erheblich verbessern. Schließlich zeigen wir, dass die Bildgenerierung in unserem Ansatz durch Reparametrisierung stark effizient gemacht werden kann. Bei traditionellen AR-Methoden steigt die Generierungszeit für Bilder linear mit der Ausgabebildauflösung an und ist daher bereits bei normalen Bildgrößen sehr zeitaufwendig. Das VQ-Diffusion ermöglicht hingegen ein besseres Gleichgewicht zwischen Qualität und Geschwindigkeit. Unsere Experimente deuten darauf hin, dass das VQ-Diffusion-Modell mit Reparametrisierung das Fünfzehnfache schneller ist als traditionelle AR-Methoden, während gleichzeitig eine höhere Bildqualität erreicht wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp