InfoGAN : Apprentissage de représentations interprétables par maximisation de l'information dans les réseaux adverses génératifs

Ce document décrit InfoGAN, une extension information-théorique du réseau génératif adversarial (Generative Adversarial Network) capable d'apprendre des représentations désentrelacées de manière entièrement non supervisée. InfoGAN est un réseau génératif adversarial qui maximise également l'information mutuelle entre un petit sous-ensemble des variables latentes et l'observation. Nous dérivons une borne inférieure de l'objectif d'information mutuelle qui peut être optimisée efficacement, et montrons que notre procédure d'entraînement peut être interprétée comme une variation de l'algorithme Wake-Sleep. Plus précisément, InfoGAN parvient à désentrelacer les styles d'écriture des formes de chiffres sur le jeu de données MNIST, la pose de l'éclairage des images rendues en 3D, et les chiffres arrière-plan du chiffre central sur le jeu de données SVHN. Il découvre également des concepts visuels tels que les styles de cheveux, la présence/absence de lunettes, et les émotions sur le jeu de données CelebA. Les expériences montrent qu'InfoGAN apprend des représentations interprétables qui sont compétitives avec celles apprises par les méthodes entièrement supervisées existantes.