vor 17 Tagen

Fehlerbegrenzte Korrektur von verrauschten Etiketten

Songzhu Zheng, Pengxiang Wu, Aman Goswami, Mayank Goswami, Dimitris Metaxas, Chao Chen

Abstract

Um große Mengen annotierter Daten zu sammeln, ist es unvermeidlich, Label-Rauschen einzuführen, d. h. falsche Klassenbezeichnungen. Um robust gegenüber Label-Rauschen zu sein, beruhen viele erfolgreiche Methoden darauf, die Vorhersagen von Rauschklassifikatoren (d. h. Modellen, die auf rauschbehafteten Trainingsdaten trainiert wurden), zu nutzen, um zu bestimmen, ob ein Label vertrauenswürdig ist. Es bleibt jedoch unklar, warum diese Heuristik in der Praxis so gut funktioniert. In diesem Paper geben wir die erste theoretische Erklärung für diese Ansätze. Wir beweisen, dass die Vorhersage eines Rauschklassifikators tatsächlich ein guter Indikator dafür sein kann, ob das Label eines Trainingsbeispiels sauber ist. Auf Basis dieses theoretischen Ergebnisses schlagen wir einen neuartigen Algorithmus vor, der die Labels anhand der Vorhersagen des Rauschklassifikators korrigiert. Die korrigierten Labels sind mit hoher Wahrscheinlichkeit mit dem wahren bayesschen Optimalklassifikator konsistent. Wir integrieren unseren Label-Korrekturalgorithmus in den Trainingsprozess tiefer neuronaler Netze und trainieren Modelle, die auf mehreren öffentlichen Datensätzen eine überlegene Testleistung erzielen.