Modèles génératifs par diffusion de sous-espace

Les modèles basés sur les scores génèrent des échantillons en transformant le bruit en données (et inversement) à l’aide d’un processus de diffusion à haute dimension. Nous nous interrogeons sur la nécessité de mener ce processus entier à une dimension élevée, ainsi que sur les inconvénients associés. À la place, nous restreignons la diffusion en projetant sur des sous-espaces au fur et à mesure que la distribution des données évolue vers le bruit. Appliqué aux modèles de pointe, notre cadre améliore simultanément la qualité des échantillons — atteignant un FID de 2,17 sur CIFAR-10 sans condition — tout en réduisant le coût computationnel de l’inférence pour un nombre donné d’étapes de débruitage. Ce cadre est entièrement compatible avec les diffusions en temps continu et préserve ses capacités flexibles, notamment le calcul exact des log-vraisemblances et la génération contrôlable. Le code est disponible à l’adresse suivante : https://github.com/bjing2016/subspace-diffusion.