SSR : Un cadre efficace et robuste pour l’apprentissage avec un bruit d’étiquettes inconnu

Malgré les progrès considérables réalisés dans l’apprentissage supervisé à l’aide des réseaux de neurones, il subsiste des défis majeurs quant à l’obtention de jeux de données à grande échelle, de haute qualité et correctement étiquetés. Dans ce contexte, l’apprentissage en présence d’étiquettes bruitées suscite un intérêt croissant. En tant que problème relativement complexe, les approches actuelles visant à obtenir de bons résultats intègrent souvent des composants issus de plusieurs domaines — apprentissage supervisé, apprentissage semi-supervisé, transfert d’apprentissage — ce qui conduit à des méthodes souvent très complexes. En outre, ces approches font généralement plusieurs hypothèses sur le type de bruit présent dans les données, ce qui compromet la robustesse du modèle et limite ses performances sous différentes conditions de bruit. Dans ce travail, nous introduisons un nouveau cadre, appelé Learning with Unknown Label Noise (LULN), où à la fois le degré et le type de bruit sont inconnus. Contrairement aux méthodes antérieures qui reposent sur de multiples hypothèses et aboutissent à des solutions complexes, nous proposons un cadre simple, efficace et robuste, nommé Sample Selection and Relabelling (SSR), qui atteint des résultats de pointe (SOTA) dans diverses conditions avec un nombre minimal de hyperparamètres. Au cœur de notre méthode se trouve un mécanisme de sélection d’échantillons et de réétiquetage basé sur un classificateur non paramétrique à plus proches voisins (NPK) $g_q$ et un classificateur paramétrique (PMC) $g_p$, permettant de sélectionner les échantillons propres et de réétiqueter progressivement les échantillons bruités. Sans recourir à des éléments complexes tels que l’entraînement conjoint (co-training), la pré-entraînement auto-supervisé ou l’apprentissage semi-supervisé, et en conservant une robustesse notable vis-à-vis des réglages de ses rares hyperparamètres, notre méthode surpasse significativement les approches antérieures sur des jeux de données synthétiques tels que CIFAR10/CIFAR100, ainsi que sur des jeux de données réels bruités comme WebVision, Clothing1M et ANIMAL-10N. Le code est disponible à l’adresse suivante : https://github.com/MrChenFeng/SSR_BMVC2022.