Repenser la valeur des étiquettes pour améliorer l'apprentissage avec des classes déséquilibrées

Les données du monde réel présentent souvent des distributions à queue longue avec un déséquilibre de classes important, ce qui pose de grands défis aux modèles de reconnaissance profonde. Nous identifions un dilemme persistant concernant la valeur des étiquettes dans le cadre de l'apprentissage déséquilibré : d'une part, la supervision par étiquettes conduit généralement à de meilleurs résultats que les approches non supervisées ; d'autre part, les données fortement déséquilibrées induisent naturellement un « biais d'étiquetage » dans le classificateur, où la frontière de décision peut être fortement altérée par les classes majoritaires. Dans ce travail, nous étudions systématiquement ces deux aspects des étiquettes. Nous démontrons, théoriquement et expérimentalement, que l'apprentissage déséquilibré peut bénéficier significativement à la fois de manières semi-supervisées et auto-supervisées. Plus précisément, nous confirmons que (1) d'un point de vue positif, les étiquettes déséquilibrées sont précieuses : en disposant de plus de données non étiquetées, les étiquettes initiales peuvent être exploitées conjointement avec ces données supplémentaires dans une optique semi-supervisée, permettant ainsi de réduire le biais d'étiquetage et améliorant considérablement le classificateur final ; (2) d'un point de vue négatif, nous arguons que les étiquettes déséquilibrées ne sont pas toujours utiles : les classificateurs pré-entraînés initialement de manière auto-supervisée surpassent systématiquement leurs modèles de référence correspondants. Des expériences étendues sur de grands jeux de données déséquilibrés confirment nos stratégies fondées sur des arguments théoriques, démontrant une performance supérieure par rapport aux états de l'art précédents. Nos résultats intrigants mettent en évidence la nécessité de repenser l'utilisation des étiquettes déséquilibrées dans les tâches réalistes à queue longue. Le code est disponible à l'adresse suivante : https://github.com/YyzHarry/imbalanced-semi-self.