Auto-encodage supervisé par des GANs via une perte auxiliaire de rotation

Les Conditional GANs (cGANs) se trouvent à l'avant-garde de la synthèse d'images naturelles. Le principal inconvénient de ces modèles est la nécessité de données étiquetées. Dans cette étude, nous exploitons deux techniques populaires d'apprentissage non supervisé, l'entraînement adverse et l'autosupervision, et franchissons une étape vers le rapprochement entre les cGANs et les GANs non conditionnels. Plus précisément, nous permettons aux réseaux de collaborer sur la tâche d'apprentissage des représentations tout en restant adverses dans le cadre du jeu classique des GANs. Le rôle de l'autosupervision est d'inciter le discriminateur à apprendre des représentations de caractéristiques significatives qui ne sont pas oubliées au cours de l'entraînement. Nous testons expérimentalement à la fois la qualité des représentations d'images apprises et celle des images synthétisées. Sous les mêmes conditions, le cGAN autosupervisé atteint une performance similaire à celle des meilleurs modèles conditionnels actuels. Enfin, nous montrons que cette approche de l'apprentissage entièrement non supervisé peut être mise à l'échelle pour obtenir un FID (Fréchet Inception Distance) de 23,4 sur la génération non conditionnelle d'ImageNet.