Réseau de zonage latent : un principe unifié pour la modélisation générative, l'apprentissage de représentations et la classification

La modélisation générative, l’apprentissage de représentations et la classification constituent trois problèmes fondamentaux en apprentissage automatique (ML), mais les solutions les plus avancées (SoTA) actuelles pour chacun d’eux restent largement disjointes. Dans cet article, nous nous demandons : peut-on proposer un principe unifié pour traiter les trois problèmes ? Une telle unification pourrait simplifier les chaînes de traitement du ML et renforcer la synergie entre les différentes tâches. Nous introduisons le Latent Zoning Network (LZN) comme une étape vers cet objectif. Au cœur de LZN se trouve un espace latent gaussien partagé, qui encode des informations communes à toutes les tâches. Chaque type de données (par exemple, images, texte, étiquettes) est associé à un encodeur qui projette les échantillons dans des zones latentes disjointes, ainsi qu’à un décodeur qui ramène les latents aux données originales. Les tâches d’ML sont exprimées comme des compositions de ces encodeurs et décodeurs : par exemple, la génération d’images conditionnelles par étiquette utilise un encodeur d’étiquettes et un décodeur d’images ; l’embedding d’images repose sur un encodeur d’images ; la classification combine un encodeur d’images et un décodeur d’étiquettes. Nous démontrons le potentiel du LZN dans trois scénarios de complexité croissante : (1) Le LZN peut améliorer des modèles existants (génération d’images) : lorsqu’il est combiné au modèle SoTA Rectified Flow, il améliore le score FID sur CIFAR10 de 2,76 à 2,59, sans modifier l’objectif d’entraînement. (2) Le LZN peut résoudre des tâches de manière autonome (apprentissage non supervisé de représentations) : il permet d’effectuer l’apprentissage de représentations non supervisées sans recourir à des fonctions de perte auxiliaires, surpassant les méthodes fondateurs MoCo et SimCLR de respectivement 9,3 % et 0,2 % en classification linéaire descendante sur ImageNet. (3) Le LZN peut résoudre plusieurs tâches simultanément (génération et classification conjointes) : grâce à des encodeurs/décodeurs d’images et d’étiquettes, il traite ces deux tâches de manière intégrée, améliorant à la fois le FID et atteignant une précision de classification SoTA sur CIFAR10. Le code source et les modèles entraînés sont disponibles à l’adresse suivante : https://github.com/microsoft/latent-zoning-networks. Le site web du projet se trouve à l’adresse : https://zinanlin.me/blogs/latent_zoning_networks.html.