HyperAIHyperAI
il y a 8 jours

Fonctions de perte par pairs : apprentissage à partir d'étiquettes bruitées sans connaître les taux de bruit

Yang Liu, Hongyi Guo
Fonctions de perte par pairs : apprentissage à partir d'étiquettes bruitées sans connaître les taux de bruit
Résumé

L’apprentissage avec des étiquettes bruitées constitue un défi courant dans le cadre de l’apprentissage supervisé. Les approches existantes exigent souvent que les praticiens spécifient des taux de bruit, c’est-à-dire un ensemble de paramètres contrôlant la gravité du bruit d’étiquetage dans le problème, et ces spécifications sont soit supposées connues, soit estimées à l’aide d’étapes supplémentaires. Dans ce travail, nous introduisons une nouvelle famille de fonctions de perte que nous appelons fonctions de perte par pair (peer loss functions), permettant d’apprendre à partir de données étiquetées bruyantes sans nécessiter de spécification a priori des taux de bruit. Ces fonctions de perte s’inscrivent dans le cadre classique de la minimisation de risque empirique (ERM). Nous démontrons que, sous des conditions modérées, la minimisation de l’ERM avec les fonctions de perte par pair sur un jeu de données bruyé conduit à un classificateur optimal ou presque optimal, comme si l’ERM avait été effectuée sur un jeu de données propre dont nous n’avons pas accès. Nous soutenons nos résultats par une série étendue d’expériences. La fonction de perte par pair offre ainsi un moyen de simplifier le développement de modèles face à des étiquettes d’entraînement potentiellement bruyées, et peut être promue comme une fonction de perte robuste dans de telles situations.