Génération d'images de haute fidélité avec moins d'étiquettes

Les modèles génératifs profonds sont en train de devenir un pilier du machine learning moderne. Les travaux récents sur les réseaux de neurones adversariaux conditionnels ont montré que l'apprentissage de distributions complexes et de grande dimension sur des images naturelles est à portée de main. Bien que les derniers modèles soient capables de générer des images naturelles de haute fidélité, diverses et à haute résolution, ils dépendent d'une quantité considérable de données étiquetées. Dans ce travail, nous démontrons comment on peut tirer profit des avancées récentes en apprentissage auto-supervisé et semi-supervisé pour surpasser l'état de l'art tant dans la synthèse non supervisée d'ImageNet que dans le cadre conditionnel. En particulier, l'approche proposée est capable d'égaler la qualité des échantillons (mesurée par le FID) du modèle conditionnel actuellement au sommet, BigGAN, sur ImageNet en utilisant seulement 10 % des étiquettes, et de le surpasser en utilisant 20 % des étiquettes.