Modèle de diffusion à quantification vectorielle pour la synthèse d’images à partir de texte

Nous présentons le modèle de diffusion à quantification vectorielle (VQ-Diffusion) pour la génération d’images à partir de texte. Cette méthode repose sur un autoencodeur variationnel à quantification vectorielle (VQ-VAE), dont l’espace latent est modélisé par une variante conditionnelle du modèle récemment développé de diffusion de débruitage probabiliste (Denoising Diffusion Probabilistic Model, DDPM). Nous constatons que cette approche dans l’espace latent s’avère particulièrement adaptée aux tâches de génération d’images à partir de texte, car elle élimine non seulement le biais unidirectionnel présent dans les méthodes existantes, mais permet également d’incorporer une stratégie de diffusion par masquage et remplacement, permettant de prévenir l’accumulation d’erreurs — un problème majeur rencontré avec les méthodes actuelles. Nos expériences montrent que le modèle VQ-Diffusion produit des résultats significativement meilleurs en génération d’images à partir de texte par rapport aux modèles autoregressifs (AR) conventionnels ayant un nombre de paramètres comparable. En comparaison avec les méthodes précédentes basées sur les GAN, notre modèle VQ-Diffusion est capable de traiter des scènes plus complexes et d’améliorer notablement la qualité des images synthétisées. Enfin, nous démontrons que le calcul de génération d’images dans notre méthode peut être rendu extrêmement efficace grâce à une réparamétrisation. Contrairement aux méthodes AR traditionnelles, dont le temps de génération d’image augmente linéairement avec la résolution de la sortie, ce qui rend le processus très long même pour des images de taille normale, le modèle VQ-Diffusion permet d’atteindre un meilleur compromis entre qualité et rapidité. Nos expériences indiquent que le modèle VQ-Diffusion, combiné à la réparamétrisation, est quinze fois plus rapide que les méthodes AR traditionnelles tout en offrant une qualité d’image supérieure.