ProMix: Bekämpfung von Label-Rauschen durch Maximierung der Nutzbarkeit sauberer Beispiele

Das Lernen mit verrauschten Etiketten (Learning with Noisy Labels, LNL) ist zu einem ansprechenden Forschungsthema geworden, da daten mit unvollständiger oder fehlerhafter Annotation relativ kostengünstig zu beschaffen sind. Moderne state-of-the-art-Ansätze setzen spezifische Selektionsmechanismen ein, um saubere und verrauschte Beispiele zu trennen, und wenden anschließend Techniken des halbüberwachten Lernens (Semi-Supervised Learning, SSL) zur Verbesserung der Leistung an. Allerdings liefert der Selektionsprozess meist lediglich eine mittelgroße, ausreichend saubere Teilmenge, wodurch eine reichhaltige Menge an weiteren sauberen Beispielen ungenutzt bleibt. Um diese Lücke zu schließen, stellen wir einen neuartigen LNL-Framework namens ProMix vor, der darauf abzielt, die Nutzung sauberer Beispiele zu maximieren, um die Gesamtleistung zu steigern. Kernstück unseres Ansatzes ist eine neue Methode zur selektiven Auswertung hochverlässiger Vorhersagen, die jene Beispiele auswählt, die hohe Konfidenzwerte aufweisen und deren Vorhersagen mit den gegebenen Etiketten übereinstimmen, um dynamisch eine Basismenge sauberer Beispiele zu erweitern. Um die potenziellen negativen Nebenwirkungen einer übermäßigen Selektion der sauberen Datenmenge zu vermeiden, entwickeln wir zudem einen neuartigen SSL-Framework, der in der Lage ist, ausgewogene und verzerrungsfreie Klassifikatoren auf den getrennten sauberen und verrauschten Beispielen zu trainieren. Umfangreiche Experimente zeigen, dass ProMix die derzeitigen state-of-the-art-Ergebnisse auf mehreren Benchmarks mit unterschiedlichen Arten und Schwierigkeitsgraden von Rauschen erheblich verbessert. Auf dem CIFAR-N-Datensatz erreicht ProMix eine durchschnittliche Verbesserung von 2,48 %. Der Quellcode ist unter https://github.com/Justherozen/ProMix verfügbar.