ProMix : Lutte contre le bruit d'étiquetage par la maximisation de l'utilité des échantillons propres

L’apprentissage avec des étiquettes bruitées (LNL) est devenu un sujet particulièrement attractif, car les données malannotées sont relativement moins coûteuses à obtenir. Les approches les plus récentes et les plus performantes emploient des mécanismes de sélection spécifiques pour distinguer les échantillons propres des échantillons bruités, puis appliquent des techniques d’apprentissage semi-supervisé (SSL) afin d’améliorer les performances. Toutefois, l’étape de sélection fournit généralement un sous-ensemble propre de taille modérée et de qualité satisfaisante, négligeant ainsi un grand nombre d’échantillons propres potentiellement exploitables. Pour combler cette lacune, nous proposons un nouveau cadre LNL, nommé ProMix, qui vise à maximiser l’utilité des échantillons propres afin d’améliorer significativement les performances. La pierre angulaire de notre méthode est une technique de sélection à haute confiance par correspondance, qui sélectionne les exemples présentant des scores de confiance élevés et des prédictions conformes aux étiquettes fournies, afin d’élargir dynamiquement un ensemble de base d’échantillons propres. Afin de contrer les effets indésirables liés à une sélection excessive de l’ensemble propre, nous avons également conçu un nouveau cadre SSL capable d’entraîner des classifieurs équilibrés et non biaisés sur les échantillons propres et bruités séparés. Des expériences étendues montrent que ProMix améliore significativement les résultats actuels de l’état de l’art sur plusieurs benchmarks, avec différents types et niveaux de bruit. Il obtient une amélioration moyenne de 2,48 % sur le jeu de données CIFAR-N. Le code source est disponible à l’adresse suivante : https://github.com/Justherozen/ProMix