HyperAIHyperAI

Command Palette

Search for a command to run...

Affronter le trilemme de l'apprentissage génératif avec des GANs à diffusion débruitée

Zhisheng Xiao Karsten Kreis Arash Vahdat

Résumé

Au cours de la dernière décennie, une grande variété de modèles génératifs profonds a été développée. Toutefois, ces modèles peinent souvent à satisfaire simultanément trois exigences fondamentales : une qualité élevée des échantillons, une couverture adéquate des modes, et un échantillonnage rapide. Nous désignons ce défi par le « trilemme de l’apprentissage génératif », car les modèles existants doivent souvent faire des compromis entre ces trois objectifs. En particulier, les modèles de diffusion débruitants ont démontré une qualité et une diversité d’échantillons impressionnantes, mais leur échantillonnage coûteux limite encore leur application dans de nombreuses tâches du monde réel. Dans cet article, nous affirmons que la lenteur de l’échantillonnage dans ces modèles provient fondamentalement de l’hypothèse gaussienne adoptée dans l’étape de débruitage, qui n’est justifiée que pour de très petits pas. Pour permettre un débruitage avec des pas plus grands — et ainsi réduire le nombre total d’étapes de débruitage —, nous proposons de modéliser la distribution de débruitage à l’aide d’une distribution multimodale complexe. Nous introduisons les réseaux adversariaux génératifs de diffusion débruitante (denoising diffusion GANs), qui modélisent chaque étape de débruitage à l’aide d’un GAN conditionnel multimodal. À travers des évaluations étendues, nous montrons que les denoising diffusion GANs atteignent une qualité et une diversité d’échantillons comparables aux modèles de diffusion originaux, tout en étant 2000 fois plus rapides sur le jeu de données CIFAR-10. Par rapport aux GANs traditionnels, notre modèle présente une meilleure couverture des modes et une diversité d’échantillons supérieure. À notre connaissance, les denoising diffusion GANs constituent le premier modèle à réduire suffisamment le coût d’échantillonnage dans les modèles de diffusion pour permettre leur application dans des applications du monde réel à faible coût. La page du projet et le code sont disponibles à l’adresse suivante : https://nvlabs.github.io/denoising-diffusion-gan


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp