Reconnaissance des classes longues par maximisation de l'information mutuelle entre les caractéristiques latentes et les étiquettes vérité terrain

Bien que les méthodes d’apprentissage contrastif aient démontré des performances supérieures sur diverses tâches d’apprentissage de représentations, elles rencontrent des difficultés lorsque le jeu de données d’entraînement présente une distribution longue-taillée. De nombreux chercheurs ont combiné l’apprentissage contrastif avec une technique d’ajustement des logits afin de remédier à ce problème, mais ces combinaisons sont souvent effectuées de manière empirique, sans fondement théorique solide. L’objectif de cet article est de fournir une base théorique et d’améliorer davantage les performances. Tout d’abord, nous montrons que la raison fondamentale pour laquelle les méthodes d’apprentissage contrastif peinent à traiter les tâches à distribution longue-taillée réside dans leur tentative de maximiser l’information mutuelle entre les caractéristiques latentes et les données d’entrée. Comme les étiquettes de vérité terrain ne sont pas prises en compte dans cette maximisation, elles ne parviennent pas à corriger les déséquilibres entre les classes. À la place, nous interprétons la tâche de reconnaissance à distribution longue-taillée comme une maximisation de l’information mutuelle entre les caractéristiques latentes et les étiquettes de vérité terrain. Cette approche intègre de manière fluide l’apprentissage contrastif et l’ajustement des logit pour dériver une fonction de perte qui atteint des performances de pointe sur des benchmarks de reconnaissance à distribution longue-taillée. Elle se révèle également efficace dans des tâches de segmentation d’images, confirmant ainsi sa polyvalence au-delà de la classification d’images.