vor 17 Tagen

Robuste langschwanzige Lernverfahren unter Label-Rauschen

Tong Wei, Jiang-Xin Shi, Wei-Wei Tu, Yu-Feng Li

Abstract

Langschwänzige Lernverfahren haben in letzter Zeit erhebliche Aufmerksamkeit erfahren, da sie das Ziel verfolgen, die Generalisierungsfähigkeit für sogenannte „Tail-Klassen“ zu verbessern. Die meisten bestehenden Ansätze basieren auf überwachtem Lernen und berücksichtigen dabei nicht die weit verbreitete Verzerrung durch Label-Rauschen im Trainingsdatensatz. Um das langschwänzige Lernen realistischeren Szenarien anzunähern, untersucht diese Arbeit das Problem des Label-Rauschens unter einer langschwänzigen Klassenverteilung. Zunächst beobachten wir die negativen Auswirkungen von fehlerhaften Labels auf die Leistung bestehender Methoden und offenbaren so die inhärenten Herausforderungen dieses Problems. Als der am häufigsten verwendete Ansatz zur Bewältigung von Label-Rauschen in der vorherigen Literatur identifizieren wir, dass die sogenannte „Small-Loss-Strategie“ unter einer langschwänzigen Klassenverteilung versagt. Der Grund hierfür liegt darin, dass tiefe neuronale Netze nicht in der Lage sind, korrekt gelabelte und falsch gelabelte Beispiele in den Tail-Klassen zu unterscheiden. Um diese Einschränkung zu überwinden, entwickeln wir eine neue prototypische Methode zur Rauschdetektion, die auf einem abstandsbezogenen Metrikansatz basiert, der robust gegenüber Label-Rauschen ist. Aufbauend auf diesen Erkenntnissen schlagen wir einen robusten Rahmen, ~\algo, vor, der eine Rauschdetektion für langschwänzige Lernverfahren ermöglicht und anschließend eine weiche Pseudolabeling-Strategie mittels Label-Smoothing und diverser Label-Vorhersagen durchführt. Darüber hinaus kann unser Rahmen nahtlos semi-supervised Lernalgorithmen nutzen, um die Generalisierungsfähigkeit weiter zu verbessern. Umfangreiche Experimente an Benchmark- und realen Datensätzen belegen die Überlegenheit unseres Ansatzes gegenüber bestehenden Baselines. Insbesondere erreicht unsere Methode eine um 3 % höhere Testgenauigkeit im Vergleich zu DivideMix. Der Quellcode wird in Kürze veröffentlicht.