HyperAIHyperAI

Command Palette

Search for a command to run...

Modèle de diffusion à quantification vectorielle pour la synthèse d’images à partir de texte

Shuyang Gu Dong Chen Jianmin Bao Fang Wen Bo Zhang Dongdong Chen Lu Yuan Baining Guo

Résumé

Nous présentons le modèle de diffusion à quantification vectorielle (VQ-Diffusion) pour la génération d’images à partir de texte. Cette méthode repose sur un autoencodeur variationnel à quantification vectorielle (VQ-VAE), dont l’espace latent est modélisé par une variante conditionnelle du modèle récemment développé de diffusion de débruitage probabiliste (Denoising Diffusion Probabilistic Model, DDPM). Nous constatons que cette approche dans l’espace latent s’avère particulièrement adaptée aux tâches de génération d’images à partir de texte, car elle élimine non seulement le biais unidirectionnel présent dans les méthodes existantes, mais permet également d’incorporer une stratégie de diffusion par masquage et remplacement, permettant de prévenir l’accumulation d’erreurs — un problème majeur rencontré avec les méthodes actuelles. Nos expériences montrent que le modèle VQ-Diffusion produit des résultats significativement meilleurs en génération d’images à partir de texte par rapport aux modèles autoregressifs (AR) conventionnels ayant un nombre de paramètres comparable. En comparaison avec les méthodes précédentes basées sur les GAN, notre modèle VQ-Diffusion est capable de traiter des scènes plus complexes et d’améliorer notablement la qualité des images synthétisées. Enfin, nous démontrons que le calcul de génération d’images dans notre méthode peut être rendu extrêmement efficace grâce à une réparamétrisation. Contrairement aux méthodes AR traditionnelles, dont le temps de génération d’image augmente linéairement avec la résolution de la sortie, ce qui rend le processus très long même pour des images de taille normale, le modèle VQ-Diffusion permet d’atteindre un meilleur compromis entre qualité et rapidité. Nos expériences indiquent que le modèle VQ-Diffusion, combiné à la réparamétrisation, est quinze fois plus rapide que les méthodes AR traditionnelles tout en offrant une qualité d’image supérieure.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp