Apprentissage contrastif prototypique des représentations non supervisées

Cet article présente l’apprentissage contrastif prototypique (Prototypical Contrastive Learning, PCL), une méthode d’apprentissage non supervisé des représentations qui surmonte les limites fondamentales de l’apprentissage contrastif par instance. Le PCL n’apprend pas seulement des caractéristiques de bas niveau utiles à la discrimination d’instances, mais surtout, il encode implicitement les structures sémantiques des données dans l’espace d’embedding appris. Plus précisément, nous introduisons des prototypes comme variables latentes afin d’aider à estimer, dans un cadre d’optimisation par maximisation de la vraisemblance attendue (Expectation-Maximization), les paramètres du réseau. Nous effectuons itérativement une étape E, consistant à déterminer la distribution des prototypes par regroupement (clustering), et une étape M, consistant à optimiser le réseau par apprentissage contrastif. Nous proposons une fonction de perte, appelée ProtoNCE, qui constitue une version généralisée de la fonction de perte InfoNCE pour l’apprentissage contrastif, et qui pousse les représentations à s’approcher de leurs prototypes affectés. Le PCL surpasser les méthodes d’apprentissage contrastif par instance les plus avancées sur plusieurs benchmarks, avec une amélioration notable dans les tâches de transfert à faible ressource. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/salesforce/PCL.