GENIE : Solveurs de diffusion débruitante d'ordre supérieur

Les modèles de diffusion débruitants (DDMs) se sont imposés comme une classe puissante de modèles génératifs. Un processus de diffusion progressif perturbe lentement les données, tandis qu’un modèle profond apprend à débruiter progressivement. La synthèse revient à résoudre une équation différentielle (DE) définie par le modèle appris. La résolution de cette DE nécessite des solveurs itératifs lents pour obtenir une génération de haute qualité. Dans ce travail, nous proposons des solveurs de diffusion débruitante d’ordre supérieur (GENIE) : à partir de méthodes de Taylor tronquées, nous dérivons un nouveau solveur d’ordre supérieur qui accélère significativement la synthèse. Notre solveur repose sur des gradients d’ordre supérieur de la distribution de données perturbées, c’est-à-dire sur des fonctions score d’ordre supérieur. En pratique, seuls les produits Jacobien-vectoriel (JVP) sont nécessaires, et nous proposons de les extraire du réseau de score d’ordre un via la différentiation automatique. Nous condensons ensuite ces JVPs dans un réseau neuronal distinct, permettant de calculer efficacement les termes d’ordre supérieur requis par notre nouvel échantillonneur lors de la synthèse. Il suffit de former une petite tête additionnelle sur le réseau de score d’ordre un. Nous validons GENIE sur plusieurs benchmarks de génération d’images et démontrons qu’il surpasser tous les solveurs précédents. Contrairement aux méthodes récentes qui modifient fondamentalement le processus de génération dans les DDM, notre GENIE résout la véritable équation générative différentielle et préserve toutefois des applications telles que l’encodage ou l’échantillonnage guidé. Page du projet et code : https://nv-tlabs.github.io/GENIE.