il y a 17 jours

Affronter le trilemme de l'apprentissage génératif avec des GANs à diffusion débruitée

Zhisheng Xiao, Karsten Kreis, Arash Vahdat

Résumé

Au cours de la dernière décennie, une grande variété de modèles génératifs profonds a été développée. Toutefois, ces modèles peinent souvent à satisfaire simultanément trois exigences fondamentales : une qualité élevée des échantillons, une couverture adéquate des modes, et un échantillonnage rapide. Nous désignons ce défi par le « trilemme de l’apprentissage génératif », car les modèles existants doivent souvent faire des compromis entre ces trois objectifs. En particulier, les modèles de diffusion débruitants ont démontré une qualité et une diversité d’échantillons impressionnantes, mais leur échantillonnage coûteux limite encore leur application dans de nombreuses tâches du monde réel. Dans cet article, nous affirmons que la lenteur de l’échantillonnage dans ces modèles provient fondamentalement de l’hypothèse gaussienne adoptée dans l’étape de débruitage, qui n’est justifiée que pour de très petits pas. Pour permettre un débruitage avec des pas plus grands — et ainsi réduire le nombre total d’étapes de débruitage —, nous proposons de modéliser la distribution de débruitage à l’aide d’une distribution multimodale complexe. Nous introduisons les réseaux adversariaux génératifs de diffusion débruitante (denoising diffusion GANs), qui modélisent chaque étape de débruitage à l’aide d’un GAN conditionnel multimodal. À travers des évaluations étendues, nous montrons que les denoising diffusion GANs atteignent une qualité et une diversité d’échantillons comparables aux modèles de diffusion originaux, tout en étant 2000 fois plus rapides sur le jeu de données CIFAR-10. Par rapport aux GANs traditionnels, notre modèle présente une meilleure couverture des modes et une diversité d’échantillons supérieure. À notre connaissance, les denoising diffusion GANs constituent le premier modèle à réduire suffisamment le coût d’échantillonnage dans les modèles de diffusion pour permettre leur application dans des applications du monde réel à faible coût. La page du projet et le code sont disponibles à l’adresse suivante : https://nvlabs.github.io/denoising-diffusion-gan