HyperAIHyperAI
il y a 8 jours

UNICON : Lutte contre le bruit d'étiquetage par sélection uniforme et apprentissage contrastif

Nazmul Karim, Mamshad Nayeem Rizve, Nazanin Rahnavard, Ajmal Mian, Mubarak Shah
UNICON : Lutte contre le bruit d'étiquetage par sélection uniforme et apprentissage contrastif
Résumé

Les méthodes d’apprentissage profond supervisé nécessitent un grand ensemble de données annotées ; par conséquent, le bruit d’étiquettes est inévitable. L’entraînement sur de telles données bruitées nuit négativement à la capacité de généralisation des réseaux neuronaux profonds. Pour contrer le bruit d’étiquettes, les méthodes les plus récentes et les plus performantes emploient une mécanique de sélection d’échantillons afin de constituer un sous-ensemble potentiellement propre de données. Ensuite, une méthode d’apprentissage semi-supervisé standard est utilisée pour l’entraînement, les échantillons rejetés étant traités comme des données non étiquetées. Notre analyse approfondie révèle que les méthodes actuelles de sélection sélectionnent de manière disproportionnée les échantillons provenant des classes faciles (faciles à apprendre), tout en rejetant ceux des classes relativement plus difficiles. Ce phénomène entraîne un déséquilibre de classes dans l’ensemble de données propre sélectionné, ce qui détériore les performances en présence d’un fort taux de bruit d’étiquettes. Dans ce travail, nous proposons UNICON, une méthode simple mais efficace de sélection d’échantillons, robuste aux fortes teneurs en bruit d’étiquettes. Pour corriger la sélection déséquilibrée entre échantillons faciles et difficiles, nous introduisons un mécanisme de sélection uniforme basé sur la divergence de Jensen-Shannon, qui ne nécessite ni modélisation probabiliste ni réglage de hyperparamètres. Nous complétons notre méthode de sélection par une approche d’apprentissage contrastif afin de lutter davantage contre la mémoire des étiquettes bruitées. Des expérimentations étendues sur plusieurs jeux de données standards démontrent l’efficacité de UNICON : nous obtenons une amélioration de 11,4 % par rapport à l’état de l’art actuel sur le jeu de données CIFAR100 avec un taux de bruit de 90 %. Notre code est disponible publiquement.