
Les modèles de diffusion basés sur le score apprennent à inverser une équation différentielle stochastique qui transforme les données en bruit. Toutefois, pour des tâches complexes, les erreurs numériques peuvent s’accumuler et conduire à des échantillons fortement artificiels. Les travaux antérieurs atténuent ce phénomène de dérive grâce à une méthode de seuillage, qui projette les échantillons vers le domaine des données naturelles (par exemple l’espace des pixels pour les images) après chaque étape de diffusion, mais cette approche entraîne un désaccord entre les processus d’entraînement et de génération. Pour intégrer de manière rigoureuse les contraintes sur les données, nous proposons les Modèles de Diffusion Réfléchis, qui inversent une équation différentielle stochastique réfléchie évoluant sur le support des données. Notre méthode apprend la fonction de score perturbée via une perte généralisée d’ajustement de score, et étend des composants clés des modèles de diffusion standards, notamment la guidance par diffusion, l’entraînement basé sur la vraisemblance et l’échantillonnage par équations différentielles ordinaires (ODE). Nous établissons également un lien théorique avec les méthodes de seuillage : celles-ci ne sont en réalité que des discrétisations d’équations différentielles stochastiques réfléchies. Sur des benchmarks standard d’images, notre méthode est compétitive voire supérieure à l’état de l’art, sans nécessiter de modification architecturale, et, en particulier avec la guidance sans classificateur, elle permet un échantillonnage rapide et exact via les ODE, tout en produisant des échantillons plus fidèles sous des poids élevés de guidance.