Jenseits synthetischer Störungen: Deep Learning mit kontrolliert verrauschten Etiketten

Die Durchführung kontrollierter Experimente auf noisy Daten ist entscheidend für das Verständnis von Deep Learning über verschiedene Rauschniveaus hinweg. Aufgrund des Fehlens geeigneter Datensätze hat die vorherige Forschung Deep Learning bisher ausschließlich auf kontrolliert synthetischem Label-Rauschen untersucht, während echtes, realweltbezogenes Label-Rauschen bisher nie in einem kontrollierten Setting analysiert wurde. Diese Arbeit leistet drei Beiträge. Erstens etablieren wir den ersten Benchmark für kontrolliertes, reales Label-Rauschen aus dem Web. Dieser neue Benchmark ermöglicht erstmals die Untersuchung von Web-Label-Rauschen in einem kontrollierten Umfeld. Der zweite Beitrag ist eine einfache, jedoch wirksame Methode zur Bewältigung sowohl synthetischer als auch realer Rauschlabels. Wir zeigen, dass unsere Methode sowohl auf unserem Datensatz als auch auf zwei öffentlichen Benchmarks (CIFAR und WebVision) die besten Ergebnisse erzielt. Der dritte Beitrag ist die bislang umfangreichste Studie zur Analyse von tiefen neuronalen Netzen, die auf Rauschlabels trainiert wurden, unter Berücksichtigung verschiedener Rauschniveaus, Rauschtypen, Netzarchitekturen und Trainingsbedingungen. Die Daten und den Code stellen wir unter folgender Adresse zur Verfügung: http://www.lujiang.info/cnlw.html