il y a 9 jours

Apprentissage contrastif équilibré pour la reconnaissance visuelle à longue queue

Jianggang Zhu, Zheng Wang, Jingjing Chen, Yi-Ping Phoebe Chen, Yu-Gang Jiang

Résumé

Les données du monde réel suivent généralement une distribution à queue longue, dans laquelle un petit nombre de catégories majoritaires occupent la majeure partie des données, tandis que la grande majorité des catégories minoritaires ne disposent que d’un nombre limité d’échantillons. Les modèles de classification minimisant l’entropie croisée peinent à représenter et à classifier efficacement les classes de la queue. Bien que le problème de l’apprentissage de classifieurs non biaisés ait été largement étudié, les méthodes de représentation des données déséquilibrées restent sous-exploitées. Dans cet article, nous nous concentrons sur l’apprentissage de représentations pour des données déséquilibrées. Récemment, l’apprentissage contrastif supervisé a montré des performances prometteuses sur des données équilibrées. Toutefois, grâce à une analyse théorique, nous constatons qu’en présence de données à queue longue, cette méthode échoue à former un simplexe régulier, une configuration géométrique idéale pour l’apprentissage de représentations. Afin de corriger le comportement d’optimisation de l’apprentissage contrastif supervisé (SCL) et d’améliorer davantage les performances de reconnaissance visuelle sur des données à queue longue, nous proposons une nouvelle fonction de perte pour un apprentissage contrastif équilibré (BCL). Par rapport à SCL, notre méthode BCL apporte deux améliorations : (1) le moyennage par classe, qui équilibre la contribution des gradients des classes négatives ; (2) le complément de classe, qui garantit que toutes les classes apparaissent dans chaque mini-batch. La méthode proposée, l’apprentissage contrastif équilibré (BCL), satisfait la condition nécessaire à la formation d’un simplexe régulier et favorise l’optimisation de l’entropie croisée. Intégrée à un cadre à deux branches, cette approche permet d’obtenir une représentation de caractéristiques plus robuste et d’atteindre des performances compétitives sur des jeux de données standards à queue longue tels que CIFAR-10-LT, CIFAR-100-LT, ImageNet-LT et iNaturalist2018. Le code source est disponible à l’adresse suivante : https://github.com/FlamieZhu/BCL.