Modélisation générative basée sur les scores à travers les équations différentielles stochastiques

Créer du bruit à partir de données est facile ; créer des données à partir de bruit correspond à la modélisation générative. Nous proposons une équation différentielle stochastique (EDS) qui transforme de manière continue une distribution de données complexe en une distribution a priori connue en injectant progressivement du bruit, ainsi qu’une EDS rétrograde correspondante qui inverse ce processus en retirant lentement le bruit pour ramener la distribution a priori à la distribution réelle des données. De manière cruciale, l’EDS rétrograde dépend uniquement du champ de gradient dépendant du temps (appelé score) de la distribution perturbée. En exploitant les progrès réalisés dans le domaine des modèles génératifs basés sur les scores, nous pouvons estimer précisément ces scores à l’aide de réseaux de neurones, et utiliser des solveurs numériques d’EDS pour générer des échantillons. Nous montrons que ce cadre englobe les approches antérieures en modélisation générative basée sur les scores et en modélisation probabiliste par diffusion, permettant ainsi de nouvelles procédures d’échantillonnage et de nouvelles capacités de modélisation. En particulier, nous introduisons un cadre prédicteur-correcteur pour corriger les erreurs dans l’évolution de l’EDS rétrograde discrétisée. Nous dérivons également une équation différentielle ordinaire (ODE) neuronale équivalente qui échantillonne selon la même distribution que l’EDS, tout en permettant un calcul exact de la vraisemblance et une efficacité améliorée de l’échantillonnage. En outre, nous proposons une nouvelle méthode pour résoudre des problèmes inverses à l’aide de modèles basés sur les scores, illustrée par des expériences sur la génération conditionnelle par classe, le remplissage d’images (inpainting) et la colorisation. En combinant ces avancées avec plusieurs améliorations architecturales, nous atteignons des performances record pour la génération d’images sans condition sur CIFAR-10, avec un score Inception de 9,89 et un FID de 2,20, une vraisemblance compétitive de 2,99 bits/dim, et démontrons pour la première fois la génération d’images de résolution 1024 × 1024 avec une fidélité élevée à partir d’un modèle génératif basé sur les scores.