Exploration d'espaces de caractéristiques équilibrés pour l'apprentissage de représentations

Les méthodes existantes d’apprentissage auto-supervisé (SSL) sont principalement appliquées pour entraîner des modèles de représentation à partir de jeux de données artificiellement équilibrés (par exemple, ImageNet). Il reste incertain de leur performance dans des scénarios réels où les jeux de données sont fréquemment déséquilibrés par rapport aux classes. Motivés par cette question, nous menons une série d’études sur la performance des méthodes d’apprentissage contrastif auto-supervisé et des méthodes supervisées sur plusieurs jeux de données, dont les distributions d’instances d’entraînement varient de l’équilibre à une distribution longue-queue. Nos résultats sont particulièrement intéressants. Contrairement aux méthodes supervisées, qui présentent une baisse significative de performance, les méthodes d’apprentissage contrastif auto-supervisé se montrent stables et performantes même lorsque les jeux de données sont fortement déséquilibrés. Cela nous incite à explorer les espaces de représentation équilibrés appris par l’apprentissage contrastif, dans lesquels les représentations features présentent une séparabilité linéaire similaire pour toutes les classes. Nos expériences complémentaires révèlent qu’un modèle de représentation qui génère un espace de caractéristiques équilibré généralise mieux qu’un modèle produisant un espace déséquilibré, dans diverses configurations. Inspirés par ces observations, nous proposons une nouvelle méthode d’apprentissage de représentation, nommée k-positive contrastive learning. Elle combine efficacement les avantages des méthodes supervisées et de l’apprentissage contrastif afin d’apprendre des représentations à la fois discriminantes et équilibrées. Des expériences étendues démontrent son avantage sur plusieurs tâches de reconnaissance. Notamment, elle atteint de nouveaux états de l’art sur des benchmarks exigeants de reconnaissance à distribution longue-queue. Le code et les modèles seront publiés.