Vers la compréhension de l'apprentissage représentatif supervisé basé sur l'RKHS et le GAN

Le succès de l'apprentissage supervisé profond repose sur sa capacité à représenter automatiquement les données. Une bonne représentation de données complexes à haute dimension doit être à faible dimension et déconnectée (disentangled), tout en perdant le moins d'information possible. Dans ce travail, nous proposons une compréhension statistique de la manière dont les objectifs de représentation profonde peuvent être atteints à l’aide d’espaces de Hilbert à noyau reproduisant (RKHS) et de réseaux adversariaux génératifs (GAN). Au niveau de la population, nous formulons la tâche idéale d’apprentissage de représentation comme celle de trouver une application non linéaire minimisant la somme des pertes caractérisant l’indépendance conditionnelle (via RKHS) et la déconnexion (via GAN). À partir d’échantillons, nous estimons cette application cible de manière non paramétrique à l’aide de réseaux de neurones profonds. Nous prouvons la convergence de notre estimateur en termes de valeur de la fonction objectif de la population. Nous validons la méthodologie proposée à travers des expériences numériques approfondies et une analyse sur données réelles dans les contextes de régression et de classification. Les performances prédictionnelles obtenues dépassent celles des méthodes de pointe.