PropMix : Filtrage des Échantillons Difficiles et MixUp Proportionnel pour l'Apprentissage avec des Étiquettes Bruitées

Les méthodes les plus performantes dans le domaine de l’apprentissage avec des étiquettes bruitées reposent sur une classification non supervisée des échantillons propres et bruités, où les échantillons identifiés comme bruités sont réétiquetés et « MixMatchés » avec les échantillons propres. Ces approches présentent deux limitations importantes dans les scénarios à taux de bruit élevé : 1) l’ensemble de données bruitées est susceptible de contenir des échantillons difficiles, qui sont alors réétiquetés de manière erronée ; 2) le nombre d’échantillons générés par MixMatch tend à diminuer, en raison de la contrainte imposée par la taille réduite de l’ensemble propre. Dans ce travail, nous introduisons un nouvel algorithme d’apprentissage, PropMix, conçu pour surmonter ces défis. PropMix filtre les échantillons bruités difficiles, dans le but d’augmenter la probabilité de réétiquetage correct des échantillons bruités faciles. En outre, PropMix intègre les échantillons propres ainsi que les échantillons bruités réétiquetés (faciles) dans un ensemble d’entraînement enrichi par MixUp, éliminant ainsi la contrainte liée à la taille de l’ensemble propre et permettant d’inclure une proportion importante d’échantillons bruités correctement réétiquetés. Nous intégrons également une pré-entraînement auto-supervisé afin d’améliorer la robustesse face à des scénarios de bruit d’étiquettes élevé. Nos expérimentations montrent que PropMix atteint des résultats de pointe (SOTA) sur CIFAR-10/-100 (avec des bruits d’étiquettes symétriques, asymétriques et sémantiques), Red Mini-ImageNet (issu des étiquettes bruitées contrôlées du Web), Clothing1M et WebVision. Sur des benchmarks à bruit d’étiquettes sévère, nos résultats dépassent significativement ceux des autres méthodes. Le code est disponible à l’adresse suivante : https://github.com/filipe-research/PropMix.