HyperAIHyperAI
il y a 17 jours

Modèles de diffusion en cascade pour la génération d’images haute fidélité

Jonathan Ho, Chitwan Saharia, William Chan, David J. Fleet, Mohammad Norouzi, Tim Salimans
Modèles de diffusion en cascade pour la génération d’images haute fidélité
Résumé

Nous montrons que les modèles de diffusion en cascade sont capables de générer des images de haute fidélité sur le benchmark de génération d'images ImageNet conditionnel par classe, sans aucune assistance provenant de classifieurs d'images auxiliaires pour améliorer la qualité des échantillons. Un modèle de diffusion en cascade repose sur une chaîne de plusieurs modèles de diffusion qui produisent des images de résolution croissante, commençant par un modèle de diffusion standard à la résolution la plus basse, suivi d’un ou plusieurs modèles de diffusion à super-résolution qui augmentent successivement la résolution de l’image et ajoutent des détails de plus haute résolution. Nous constatons que la qualité des échantillons dans une chaîne en cascade dépend crucialement de l’augmentation de conditionnement, notre méthode proposée d’augmentation des données des entrées conditionnelles à basse résolution fournies aux modèles de super-résolution. Nos expériences montrent que l’augmentation de conditionnement empêche la propagation des erreurs lors de l’échantillonnage dans un modèle en cascade, permettant ainsi d’entraîner des chaînes en cascade atteignant des scores FID de 1,48 à 64×64, 3,52 à 128×128 et 4,88 à 256×256, surpassant ainsi BigGAN-deep, ainsi que des scores d’exactitude de classification de 63,02 % (top-1) et 84,06 % (top-5) à 256×256, dépassant VQ-VAE-2.