Centralité et cohérence : identification en deux étapes d’échantillons propres pour l’apprentissage avec des étiquettes bruitées dépendantes des instances

Les modèles profonds entraînés avec des étiquettes bruitées sont sujets au surapprentissage et rencontrent des difficultés en généralisation. La plupart des solutions existantes reposent sur une hypothèse idéale selon laquelle le bruit d’étiquette est conditionnel par classe, c’est-à-dire que les instances d’une même classe partagent le même modèle de bruit, indépendamment des caractéristiques. Toutefois, en pratique, les motifs de bruit réels sont généralement plus fins et dépendants des instances, ce qui pose un défi important, notamment en présence d’un déséquilibre entre les classes. Dans cet article, nous proposons une méthode en deux étapes pour identifier les échantillons propres afin de relever ce défi. Premièrement, nous mettons en œuvre une procédure de regroupement par caractéristiques au niveau de la classe afin d’identifier précocement les échantillons propres situés près des centres de prédiction par classe. Notamment, nous traitons le problème du déséquilibre de classes en regroupant les classes rares selon leur entropie de prédiction. Deuxièmement, pour les échantillons propres restants, situés près de la frontière de classe réelle (souvent mélangés à des échantillons présentant un bruit dépendant de l’instance), nous proposons une nouvelle méthode de classification fondée sur la cohérence, qui identifie ces échantillons à partir de la cohérence entre deux têtes de classificateur : plus la cohérence est élevée, plus la probabilité qu’un échantillon soit propre est grande. Des expériences étendues sur plusieurs benchmarks exigeants démontrent la supériorité de notre méthode par rapport aux états de l’art.