DiffuseVAE : Génération efficace, contrôlable et à haute fidélité à partir de latents à faible dimension

Les modèles de diffusion probabilistes ont démontré des performances de pointe sur plusieurs benchmarks compétitifs de synthèse d’images, mais ils souffrent d’un espace latent à faible dimension peu interprétable et d’une lenteur en génération. À l’inverse, les Autoencodeurs Variationnels (VAE) classiques disposent généralement d’un espace latent à faible dimension, mais produisent des échantillons de qualité médiocre. Nous présentons DiffuseVAE, un nouveau cadre génératif qui intègre un VAE dans un cadre de modèle de diffusion, et exploite cette intégration pour concevoir de nouvelles paramétrisations conditionnelles pour les modèles de diffusion. Nous montrons que le modèle obtenu confère aux modèles de diffusion un code latent inféré par un VAE à faible dimension, utilisable pour des tâches ultérieures telles que la synthèse contrôlable. La méthode proposée améliore également le compromis entre vitesse et qualité observé dans les modèles DDPM/DDIM non conditionnels standards (par exemple, un score FID de 16,47 contre 34,36 avec un DDIM standard sur le benchmark CelebA-HQ-128, en utilisant T=10 étapes de processus inverse), sans avoir été explicitement entraînée pour cet objectif. En outre, le modèle proposé atteint une qualité de synthèse comparable aux meilleurs modèles existants sur des benchmarks standards de synthèse d’images tels que CIFAR-10 et CelebA-64, tout en surpassant la plupart des méthodes basées sur les VAE. Enfin, nous démontrons que la méthode proposée présente une généralisation intrinsèque à différents types de bruit présents dans le signal conditionnel. Pour assurer la reproductibilité, notre code source est disponible publiquement à l’adresse suivante : https://github.com/kpandey008/DiffuseVAE.