Apprentissage de représentations latentes dans les réseaux neuronaux pour le clustering par pseudo-supervision et régularisation d'activité basée sur les graphes

Dans cet article, nous proposons une nouvelle approche de clustering non supervisé exploitant les informations cachées introduites indirectement par un objectif de classification pseudo. Plus précisément, nous attribuons aléatoirement une étiquette de classe parente pseudo à chaque observation, qui est ensuite modifiée en appliquant la transformation spécifique au domaine associée à l'étiquette assignée. Les paires d'observations-étiquettes pseudo générées sont ensuite utilisées pour entraîner un réseau neuronal doté d'une Couche de Sortie Auto-clustering (ACOL) qui introduit plusieurs nœuds softmax pour chaque classe parente pseudo. Grâce à l'objectif non supervisé basé sur des termes de Régularisation d'Activité Basée sur les Graphes (GAR), les duplicatas softmax de chaque classe parente se spécialisent, car les informations cachées capturées grâce aux transformations spécifiques au domaine sont propagées pendant l'entraînement. Nous obtenons finalement une représentation latente favorable à k-means. De plus, nous démontrons comment le type de transformation choisi influence les performances et aide à propager les informations latentes utiles pour révéler des clusters inconnus. Nos résultats montrent des performances de pointe pour les tâches de clustering non supervisé sur les jeux de données MNIST, SVHN et USPS, avec les meilleures précisions jamais rapportées dans la littérature jusqu'à présent.