Correction à borne d'erreur des étiquettes bruitées
Pour collecter des données annotées à grande échelle, il est inévitable d’introduire un bruit d’étiquettes, c’est-à-dire des étiquettes de classe incorrectes. Afin de garantir la robustesse face à ce bruit, de nombreuses méthodes efficaces s’appuient sur les classifieurs bruyants (c’est-à-dire les modèles entraînés sur des données d’entraînement bruyantes) pour déterminer si une étiquette est fiable. Toutefois, il reste encore inconnu pourquoi cette heuristique fonctionne si bien en pratique. Dans cet article, nous fournissons la première explication théorique de ces méthodes. Nous démontrons que la prédiction d’un classifieur bruyant peut effectivement servir d’indicateur fiable quant à la propreté d’une étiquette dans les données d’entraînement. À partir de ce résultat théorique, nous proposons un nouvel algorithme permettant de corriger les étiquettes en se basant sur les prédictions du classifieur bruyant. Les étiquettes corrigées sont cohérentes avec le classifieur bayésien optimal véritable avec une haute probabilité. Nous intégrons notre algorithme de correction d’étiquettes dans l’entraînement des réseaux de neurones profonds, et entraînons des modèles qui atteignent des performances de test supérieures sur plusieurs jeux de données publics.