Au-delà du bruit synthétique : apprentissage profond sur des étiquettes bruitées contrôlées

La réalisation d'expériences contrôlées sur des données bruitées est essentielle pour comprendre le fonctionnement des réseaux de neurones profonds en présence de bruit à différents niveaux. En raison du manque de jeux de données adaptés, les recherches antérieures se sont limitées à l'étude des réseaux profonds soumis à un bruit de label synthétique contrôlé, tandis que le bruit de label réel n'avait jamais été analysé dans un cadre expérimental contrôlé. Ce papier présente trois contributions majeures. Premièrement, nous établissons la première référence (benchmark) de bruit de label réel contrôlé issu du web. Ce nouveau benchmark permet, pour la première fois, d'étudier le bruit de label présent sur le web dans un cadre expérimental contrôlé. Deuxièmement, nous proposons une méthode simple mais efficace pour surmonter à la fois les labels bruités synthétiques et réels. Nous démontrons que notre méthode obtient les meilleurs résultats sur notre propre jeu de données ainsi que sur deux benchmarks publics (CIFAR et WebVision). Troisièmement, nous menons l'étude la plus vaste à ce jour sur la compréhension des réseaux neuronaux profonds entraînés sur des labels bruités, en explorant différents niveaux de bruit, types de bruit, architectures de réseau et conditions d'entraînement. Les données et le code source sont disponibles à l'adresse suivante : http://www.lujiang.info/cnlw.html