Synthèse d'images conditionnelle avec des GANs à classificateur auxiliaire

La synthèse d'images photoréalistes à haute résolution a toujours été un défi majeur dans l'apprentissage automatique. Dans cet article, nous présentons de nouvelles méthodes pour améliorer l'entraînement des réseaux de neurones génératifs adverses (GANs) destinés à la synthèse d'images. Nous construisons une variante des GANs utilisant le conditionnement par étiquette, ce qui permet d'obtenir des échantillons d'images de résolution 128x128 montrant une cohérence globale. Nous approfondissons les travaux précédents sur l'évaluation de la qualité des images en proposant deux nouvelles analyses pour évaluer la discernabilité et la diversité des échantillons issus des modèles de synthèse d'images conditionnés par classe. Ces analyses montrent que les échantillons à haute résolution fournissent des informations de classe non présentes dans les échantillons à basse résolution. Sur 1000 classes d'ImageNet, les échantillons de résolution 128x128 sont plus de deux fois plus discernables que les échantillons redimensionnés artificiellement à 32x32. De plus, 84,7% des classes ont des échantillons présentant une diversité comparable aux données réelles d'ImageNet.