HyperAIHyperAI
il y a 9 jours

Amélioration de la synthèse d’images basée sur les diffusion grâce à la prédiction du contexte

Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui
Amélioration de la synthèse d’images basée sur les diffusion grâce à la prédiction du contexte
Résumé

Les modèles de diffusion constituent une nouvelle classe de modèles génératifs, ayant considérablement amélioré la génération d’images grâce à une qualité et une diversité sans précédent. Les modèles de diffusion existants s’efforcent principalement de reconstruire l’image d’entrée à partir d’une version altérée, en imposant des contraintes ponctuelles, soit au niveau des pixels, soit au niveau des caractéristiques, le long des axes spatiaux. Toutefois, cette approche de reconstruction basée sur des points peut échouer à garantir que chaque pixel ou caractéristique prédit préserve pleinement son contexte local, ce qui nuit à la qualité de la synthèse d’images fondée sur la diffusion. Le contexte, en tant que source puissante de signal de supervision automatique, a été largement étudié pour l’apprentissage de représentations. Inspirés par ces travaux, nous proposons pour la première fois ConPreDiff, une méthode visant à améliorer la synthèse d’images par diffusion grâce à la prédiction du contexte. Nous renforçons explicitement chaque point, au cours de l’étape d’entraînement, pour qu’il prédise son contexte voisin (c’est-à-dire des caractéristiques/tokens/pixels à plusieurs pas) à l’aide d’un décodeur de contexte placé à la fin des blocs de débruitage de diffusion, tout en supprimant ce décodeur lors de l’inférence. Ainsi, chaque point peut mieux se reconstruire en préservant ses connexions sémantiques avec son contexte voisin. Ce nouveau paradigme de ConPreDiff est généralisable à tout modèle de diffusion discret ou continu, sans ajouter de paramètres supplémentaires lors de l’étape d’échantillonnage. Des expériences étendues ont été menées sur des tâches de génération d’images sans condition, de génération d’images à partir de texte, et de complétion d’images. ConPreDiff surpasse de manière cohérente les méthodes antérieures et atteint un nouveau record (SOTA) en génération d’images à partir de texte sur MS-COCO, avec un score FID zéro-shot de 6,21.