Vektorquantisierte Diffusionsmodell für Text-zu-Bild-Synthese

Wir stellen das Vektorquantisierte Diffusionsmodell (VQ-Diffusion) für die Text-zu-Bild-Generierung vor. Dieses Verfahren basiert auf einem vektorquantisierten variationalen Autoencoder (VQ-VAE), dessen Latentraum durch eine bedingte Variante des kürzlich entwickelten Denoising Diffusion Probabilistic Models (DDPM) modelliert wird. Wir stellen fest, dass diese Latentraum-Methodik besonders gut für Text-zu-Bild-Generierungsaufgaben geeignet ist, da sie nicht nur den einseitigen Bias bestehender Methoden beseitigt, sondern auch die Implementierung einer Mask-and-Replace-Diffusionsstrategie ermöglicht, um die Akkumulation von Fehlern zu vermeiden – ein gravierendes Problem bei bestehenden Ansätzen. Unsere Experimente zeigen, dass das VQ-Diffusion im Vergleich zu herkömmlichen autoregressiven (AR) Modellen mit vergleichbarer Parameteranzahl signifikant bessere Ergebnisse bei der Text-zu-Bild-Generierung erzielt. Im Vergleich zu früheren GAN-basierten Ansätzen für Text-zu-Bild-Generierung kann unser VQ-Diffusion komplexere Szenen besser verarbeiten und die Qualität der synthetisierten Bilder erheblich verbessern. Schließlich zeigen wir, dass die Bildgenerierung in unserem Ansatz durch Reparametrisierung stark effizient gemacht werden kann. Bei traditionellen AR-Methoden steigt die Generierungszeit für Bilder linear mit der Ausgabebildauflösung an und ist daher bereits bei normalen Bildgrößen sehr zeitaufwendig. Das VQ-Diffusion ermöglicht hingegen ein besseres Gleichgewicht zwischen Qualität und Geschwindigkeit. Unsere Experimente deuten darauf hin, dass das VQ-Diffusion-Modell mit Reparametrisierung das Fünfzehnfache schneller ist als traditionelle AR-Methoden, während gleichzeitig eine höhere Bildqualität erreicht wird.