Réseaux de Génération Adversariaux à Auto-Attention

Dans cet article, nous proposons le Self-Attention Generative Adversarial Network (SAGAN), qui permet la modélisation de dépendances à longue portée guidée par l'attention pour les tâches de génération d'images. Les GANs convolutionnels traditionnels génèrent des détails de haute résolution en fonction uniquement de points spatialement locaux dans des cartes de caractéristiques de basse résolution. Dans le SAGAN, les détails peuvent être générés en utilisant des indices provenant de toutes les positions des caractéristiques. De plus, le discriminateur peut vérifier que les caractéristiques très détaillées dans des parties éloignées de l'image sont cohérentes entre elles. Des travaux récents ont également montré que le conditionnement du générateur influence les performances des GANs. En exploitant cette constatation, nous appliquons la normalisation spectrale au générateur GAN et constatons que cela améliore la dynamique d'apprentissage. Le SAGAN proposé atteint des résultats d'avant-garde, améliorant le meilleur score Inception publié de 36,8 à 52,52 et réduisant la distance Fréchet Inception de 27,62 à 18,65 sur l'ensemble de données ImageNet difficile. La visualisation des couches d'attention montre que le générateur utilise des voisinages correspondant aux formes d'objets plutôt que des régions locales de forme fixe.