Apprentissage de représentation à grande échelle dans un contexte adversarial

Les modèles génératifs entraînés de manière adversariale (GANs) ont récemment obtenu des résultats convaincants en synthèse d'images. Cependant, malgré les premiers succès dans l'utilisation des GANs pour l'apprentissage non supervisé de représentations, ils ont depuis été dépassés par des approches basées sur l'auto-supervision. Dans ce travail, nous montrons que les progrès en termes de qualité de génération d'images se traduisent par une amélioration substantielle des performances d'apprentissage de représentations. Notre approche, BigBiGAN, s'appuie sur le modèle BigGAN de pointe, en l'étendant à l'apprentissage de représentations grâce à l'ajout d'un encodeur et à la modification du discriminateur. Nous évaluons exhaustivement les capacités d'apprentissage de représentations et de génération de ces modèles BigBiGAN, démontrant que ces modèles basés sur la génération atteignent l'état de l'art en apprentissage non supervisé de représentations sur ImageNet, ainsi qu'en génération d'images inconditionnelle. Des modèles BigBiGAN pré-entraînés -- y compris les générateurs et encodeurs d'images -- sont disponibles sur TensorFlow Hub (https://tfhub.dev/s?publisher=deepmind&q=bigbigan).