Modèles de diffusion avec bruit adaptatif appris

Les modèles de diffusion ont gagné en popularité en tant qu'algorithmes puissants pour la synthèse d'images de haute qualité. Le processus de diffusion, un ensemble d'équations qui transforme les données en bruit de manière à influencer significativement les performances, constitue le cœur de ces algorithmes. Dans ce travail, nous explorons la possibilité d'apprendre ce processus de diffusion à partir des données. Notre approche repose sur une inférence bayésienne et vise à améliorer l'estimation de la vraisemblance logarithmique en modélisant le processus de diffusion appris comme une postérieure variationnelle approximative, permettant d'obtenir une borne inférieure plus serrée (ELBO) sur la vraisemblance. Une hypothèse largement répandue est que l'ELBO est invariante par rapport au processus de bruit : notre travail remet en question cette hypothèse et propose MULAN (Multivariate Learned Adaptive Noise), un processus de diffusion appris qui applique le bruit à des taux différents selon les régions d'une image. Plus précisément, notre méthode repose sur un calendrier de bruit multivarié dépendant des données, garantissant ainsi que l'ELBO n'est plus invariant par rapport au choix du calendrier de bruit, contrairement aux approches antérieures. Expérimentalement, MULAN établit un nouveau record en estimation de densité sur CIFAR-10 et ImageNet, tout en réduisant de 50 % le nombre d'étapes d'entraînement. Nous mettons à disposition le code source, ainsi qu’un billet de blog et une vidéo tutoriel sur la page du projet : https://s-sahoo.com/MuLAN