SciRE-Solver : Accélération de l’échantillonnage des modèles de diffusion par solveur d’intégrande de score avec différence récursive

Les modèles de diffusion (DMs) ont connu des progrès significatifs dans les domaines de la génération d’images, d’audio et de vidéos. Toutefois, un inconvénient majeur de ces modèles réside dans leur processus itératif lent. Les algorithmes récents visant un échantillonnage accéléré sont conçus à partir d’une perspective d’équations différentielles. Toutefois, dans les algorithmes d’ordre supérieur basés sur le développement de Taylor, l’estimation de la dérivée de la fonction score devient intraitable en raison de la complexité des réseaux neuronaux de grande taille bien entraînés. Motivés par ce défi, nous introduisons dans ce travail une méthode appelée différence récursive (RD) pour calculer la dérivée de la fonction score dans le cadre des DMs. En s’appuyant sur la méthode RD et sur un développement de Taylor tronqué de l’intégrande du score, nous proposons SciRE-Solver, un algorithme garantissant un ordre de convergence, afin d’accélérer l’échantillonnage des DMs. Pour explorer davantage l’efficacité de la méthode RD, nous proposons également une variante nommée SciREI-Solver, basée sur la méthode RD et un intégrateur exponentiel. Nos algorithmes d’échantillonnage proposés, fondés sur la méthode RD, atteignent des résultats de FID (Fréchet Inception Distance) de l’état de l’art (SOTA) par rapport aux algorithmes d’échantillonnage sans entraînement existants, tant pour les modèles DMs pré-entraînés à temps discret que continu, sur divers nombres d’évaluations de la fonction score (NFE). De manière remarquable, SciRE-Solver, utilisant un faible nombre d’évaluations (NFE), démontre un potentiel prometteur pour dépasser le FID atteint par certains modèles pré-entraînés dans leurs publications originales, qui nécessitaient au moins 1000 évaluations. Par exemple, nous atteignons une valeur SOTA de 2,40 FID avec 100 NFE pour un modèle à temps continu sur CIFAR-10, et de 3,15 FID avec 84 NFE pour un modèle à temps discret sur le même jeu de données ; sur CelebA 64×64, nous obtenons respectivement 2,17 (2,02) FID avec 18 (50) NFE pour un modèle à temps discret.