Apprentissage à partir d'images simulées et non supervisées par entraînement adversarial

Avec les récentes avancées en infographie, il est devenu plus abordable d'entraîner des modèles sur des images synthétiques, potentiellement évitant ainsi le besoin d'annotations coûteuses. Cependant, l'apprentissage à partir d'images synthétiques peut ne pas atteindre les performances souhaitées en raison d'un écart entre les distributions d'images synthétiques et réelles. Pour réduire cet écart, nous proposons l'apprentissage Simulé+Non Supervisé (S+U), où la tâche consiste à apprendre un modèle capable d'améliorer la réalisme de la sortie d'un simulateur en utilisant des données réelles non étiquetées, tout en conservant les informations d'annotation fournies par le simulateur. Nous développons une méthode pour l'apprentissage S+U qui utilise un réseau antagoniste similaire aux Réseaux Antagonistes Générateurs (GANs), mais avec des images synthétiques comme entrées au lieu de vecteurs aléatoires. Nous apportons plusieurs modifications clés à l'algorithme GAN standard pour préserver les annotations, éviter les artefacts et stabiliser l'entraînement : (i) un terme de « régularisation auto », (ii) une perte adversaire locale, et (iii) la mise à jour du discriminateur à partir d'une historique d'images raffinées. Nous montrons que cela permet la génération d'images hautement réalistes, ce que nous démontrons tant qualitativement qu'à travers une étude utilisateur. Nous évaluons quantitativement les images générées en entraînant des modèles pour l'estimation du regard et l'estimation de la posture de la main. Nous montrons une amélioration significative par rapport à l'utilisation d'images synthétiques et obtenons des résultats de pointe sur le jeu de données MPIIGaze sans aucune donnée réelle étiquetée.