Formation de GAN à grande échelle pour la synthèse d'images naturelles de haute fidélité

Malgré les progrès récents dans la modélisation d'images génératives, la génération réussie d'échantillons de haute résolution et diversifiés à partir de jeux de données complexes tels qu'ImageNet reste un objectif difficile à atteindre. Dans cette optique, nous avons formé des Réseaux de Génération Adversariaux (Generative Adversarial Networks, GANs) à l'échelle la plus grande tentée jusqu'à présent, et nous avons étudié les instabilités spécifiques à une telle échelle. Nous constatons que l'application de la régularisation orthogonale au générateur le rend adaptable à un simple « truc de troncature » (« truncation trick »), permettant un contrôle fin du compromis entre la fidélité des échantillons et leur variété en réduisant la variance de l'entrée du Générateur. Nos modifications conduisent à des modèles qui établissent un nouveau niveau d'excellence dans la synthèse d'images conditionnelle par classe. Lorsqu'ils sont formés sur ImageNet à une résolution de 128x128, nos modèles (BigGANs) obtiennent un score Inception (IS) de 166,5 et une distance Fréchet Inception (FID) de 7,4, améliorant ainsi le meilleur IS précédent de 52,52 et la meilleure FID précédente de 18,6.