Les modèles de diffusion par ondelettes sont des générateurs d'images rapides et évolutifs

Les modèles de diffusion émergent comme une solution puissante pour la génération d’images de haute fidélité, dépassant souvent les GAN en qualité dans de nombreuses situations. Toutefois, leur lenteur en phase d’entraînement et de déduction constitue un goulot d’étranglement majeur, empêchant leur utilisation dans des applications en temps réel. Une méthode récente, DiffusionGAN, réduit considérablement le temps d’exécution des modèles en réduisant le nombre d’étapes d’échantillonnage de plusieurs milliers à quelques-unes seulement, mais leurs performances restent encore largement inférieures à celles des GAN. Ce papier vise à réduire cet écart de vitesse en proposant un nouveau schéma de diffusion basé sur les ondelettes. Nous extrayons les composantes à basse et haute fréquence au niveau des images et des caractéristiques à l’aide d’une décomposition en ondelettes, et traitons ces composantes de manière adaptative afin d’accélérer le traitement tout en préservant une qualité de génération élevée. En outre, nous proposons d’ajouter un terme de reconstruction, qui améliore efficacement la convergence de l’entraînement du modèle. Les résultats expérimentaux sur les jeux de données CelebA-HQ, CIFAR-10, LSUN-Church et STL-10 démontrent que notre approche constitue une étape clé vers la mise au point de modèles de diffusion en temps réel et de haute fidélité. Notre code source et les points de contrôle pré-entraînés sont disponibles à l’adresse suivante : \url{https://github.com/VinAIResearch/WaveDiff.git}.