Les modèles de diffusion surpassent les GANs dans la synthèse d'images

Nous montrons que les modèles de diffusion peuvent atteindre une qualité d’échantillonnage d’images supérieure aux modèles génératifs actuels de pointe. Nous atteignons ce résultat dans la synthèse d’images sans condition en identifiant une architecture améliorée grâce à une série d’ablations. Pour la synthèse d’images conditionnelles, nous améliorons davantage la qualité des échantillons grâce à une guidance par classificateur : une méthode simple et efficace en termes de calcul permettant de négocier entre diversité et fidélité en utilisant les gradients fournis par un classificateur. Nous obtenons un FID de 2,97 sur ImageNet 128×128, 4,59 sur ImageNet 256×256 et 7,72 sur ImageNet 512×512, tout en égalant BigGAN-deep même avec seulement 25 passes avant par échantillon, tout en maintenant une meilleure couverture de la distribution. Enfin, nous constatons que la guidance par classificateur s’associe efficacement aux modèles de diffusion à suréchantillonnage, améliorant encore le FID à 3,94 sur ImageNet 256×256 et 3,85 sur ImageNet 512×512. Nous mettons notre code à disposition à l’adresse suivante : https://github.com/openai/guided-diffusion