CoDiM: Lernen mit verrauschten Beschriftungen durch kontrastives semi-supervised Lernen

Etiketten sind kostspielig und manchmal unzuverlässig. Noisy Label Learning, semi-supervised Learning und Contrastive Learning sind drei verschiedene Ansätze zur Gestaltung von Lernprozessen mit geringerem Annotationaufwand. Semi-supervised Learning und Contrastive Learning wurden kürzlich als wirksame Methoden zur Verbesserung von Lernstrategien für Datensätze mit verrauschten Etiketten nachgewiesen. Dennoch sind die inneren Zusammenhänge zwischen diesen Forschungsfeldern sowie das Potenzial, ihre Stärken zu kombinieren, erst ansatzweise erforscht. In diesem Paper untersuchen wir weitere Möglichkeiten und Vorteile der Integration dieser Ansätze. Konkret stellen wir CSSL, einen einheitlichen Algorithmus für Contrastive Semi-Supervised Learning, vor, sowie CoDiM (Contrastive DivideMix), einen neuartigen Algorithmus zur Lernung mit verrauschten Etiketten. CSSL nutzt die Stärken klassischer semi-supervised Learning- und Contrastive Learning-Technologien und wird zudem an CoDiM angepasst, welcher robust über mehrere Arten und Schweregrade von Etikettenrauschen hinweg lernt. Wir zeigen, dass CoDiM konsistente Verbesserungen erzielt und auf mehreren Benchmarks Ergebnisse auf State-of-the-Art-Niveau erreicht.