Les GANs formées par une règle de mise à jour à deux échelles temporelles convergent vers un équilibre de Nash local.

Les Réseaux de Génération Adversariaux (GANs) excellent dans la création d'images réalistes à l'aide de modèles complexes pour lesquels la vraisemblance maximale est impossible à calculer. Cependant, la convergence de l'entraînement des GANs n'est toujours pas prouvée. Nous proposons une règle de mise à jour sur deux échelles temporelles (TTUR) pour entraîner des GANs avec le descente de gradient stochastique sur des fonctions de perte GAN quelconques. La TTUR dispose d'un taux d'apprentissage individuel pour le discriminateur et le générateur. En utilisant la théorie de l'approximation stochastique, nous démontrons que la TTUR converge sous des hypothèses légères vers un équilibre de Nash local stationnaire. Cette convergence s'étend également à l'optimisation populaire Adam, pour laquelle nous prouvons qu'elle suit les dynamiques d'une balle lourde avec frottement et préfère donc les minima plats dans le paysage objectif. Pour évaluer les performances des GANs en génération d'images, nous introduisons la « Distance Fréchet Inception » (FID), qui capture mieux la similarité entre les images générées et les images réelles que le score Inception. Dans nos expériences, la TTUR améliore l'apprentissage pour les DCGANs et les WGAN-GP (Improved Wasserstein GANs) surpassent l'entraînement conventionnel des GANs sur CelebA, CIFAR-10, SVHN, LSUN Bedrooms et le Benchmark du Milliard de Mots.