PropMix: Hard Sample Filtering und Proportionales MixUp für das Lernen mit verrauschten Labels

Die leistungsstärksten Methoden zum Umgang mit verrauschten Etiketten basieren auf einer unsupervisierten Klassifikation von sauberen und verrauschten Beispielen, wobei die als verrauscht klassifizierten Samples neu beschriftet und mit den sauberen Samples mittels „MixMatch“ kombiniert werden. Diese Ansätze weisen bei hohen Raten an Rausch-Etiketten zwei zentrale Probleme auf: Erstens neigt die Menge der verrauschten Beispiele dazu, schwierige (hard) Samples zu enthalten, die fälschlicherweise neu beschriftet werden; zweitens verringert sich die Anzahl an durch MixMatch generierten Samples, da diese durch die geringe Größe der sauberen Menge begrenzt ist. In diesem Artikel stellen wir den Lernalgorithmus PropMix vor, um diese Probleme zu adressieren. PropMix filtert schwierige verrauschte Beispiele heraus, um die Wahrscheinlichkeit einer korrekten Neubeschriftung einfacher verrauschter Beispiele zu erhöhen. Zudem integriert PropMix saubere sowie neu beschriftete einfache verrauschte Beispiele in einen Trainingsdatensatz, der mittels MixUp erweitert wird, wodurch die Beschränkung durch die Größe der sauberen Menge entfällt und ein großer Anteil korrekt neu beschrifteter einfacher verrauschter Beispiele in das Training einfließt. Zudem implementieren wir eine selbstüberwachte Vortrainingsphase, um die Robustheit gegenüber Szenarien mit hohem Rauschgrad bei den Etiketten zu verbessern. Unsere Experimente zeigen, dass PropMix state-of-the-art (SOTA)-Ergebnisse auf CIFAR-10/-100 (mit symmetrischem, asymmetrischem und semantischem Etikettenrauschen), Red Mini-ImageNet (aus den Controlled Noisy Web Labels), Clothing1M und WebVision erzielt. Auf anspruchsvollen Benchmarks mit starkem Etikettenrauschen übertrifft PropMix signifikant andere Methoden. Der Quellcode ist unter https://github.com/filipe-research/PropMix verfügbar.