HyperAIHyperAI
il y a 17 jours

Simpler Diffusion (SiD2) : 1,5 FID sur ImageNet512 avec une diffusion dans l'espace pixel

Emiel Hoogeboom, Thomas Mensink, Jonathan Heek, Kay Lamerigts, Ruiqi Gao, Tim Salimans
Simpler Diffusion (SiD2) : 1,5 FID sur ImageNet512 avec une diffusion dans l'espace pixel
Résumé

Les modèles de diffusion latents sont devenus le choix privilégié pour l’escalade des modèles de diffusion afin de générer des images de haute résolution. Contrairement aux modèles spatiaux en pixels, entraînés de bout en bout, les modèles latents sont généralement considérés comme plus efficaces et capables de produire une qualité d’image supérieure à haute résolution. Dans ce travail, nous remettons en question ces préjugés et montrons que les modèles spatiaux en pixels peuvent être tout aussi compétitifs que les modèles latents, tant en termes de qualité que d’efficacité, atteignant un FID de 1,5 sur ImageNet512 et des résultats nouveaux et meilleurs (SOTA) sur ImageNet128, ImageNet256 et Kinetics600.Nous proposons une recette simple pour escalader les modèles de diffusion spatiaux en pixels, entraînés de bout en bout, à des résolutions élevées. 1 : Utiliser le poids de perte sigmoïdal (Kingma & Gao, 2023) avec nos paramètres hyperprédéfinis. 2 : Adopter notre architecture simplifiée, efficace en mémoire, avec un nombre réduit de connexions de saut (skip-connections). 3 : Échelonner le modèle de manière à privilégier le traitement des images à haute résolution avec moins de paramètres, plutôt que d’utiliser davantage de paramètres à une résolution plus faible. En combinant ces éléments avec des intervalles de guidance, nous obtenons une famille de modèles de diffusion spatiaux en pixels que nous appelons Simpler Diffusion (SiD2).

Simpler Diffusion (SiD2) : 1,5 FID sur ImageNet512 avec une diffusion dans l'espace pixel | Articles de recherche récents | HyperAI