Deep Neural Networks robust gegen Label-Noise machen: Ein Ansatz zur Verlustkorrektur

Wir präsentieren einen theoretisch fundierten Ansatz zur Ausbildung tiefer neuronaler Netze, einschließlich rekurrenter Netze, unter Berücksichtigung von klassenabhängigen Label-Rauschen. Wir schlagen zwei Verfahren zur Korrektur des Verlustes vor, die sowohl unabhängig vom Anwendungsgebiet als auch von der Netzarchitektur sind. Diese reduzieren sich im Wesentlichen auf eine Matrixinversion und Multiplikation, vorausgesetzt, wir kennen die Wahrscheinlichkeit, mit der jede Klasse in eine andere korrupt wird. Des Weiteren zeigen wir, wie man diese Wahrscheinlichkeiten schätzen kann, indem man eine jüngste Technik zur Rauschschätzung auf den Mehrklassenfall anpasst und somit ein end-to-end-Framework bereitstellt. Umfangreiche Experimente auf MNIST, IMDB, CIFAR-10, CIFAR-100 und einem großen Datensatz von Kleidungsbildern unter Verwendung einer Vielzahl von Architekturen – einschließlich dichter Schichten, Faltungs-Schichten (convolutional), Pooling-Schichten (pooling), Dropout-Schichten (dropout), Batch-Normalisierungsschichten (batch normalization), Wort-Einbettungen (word embedding), LSTM-Schichten (LSTM) und Residualschichten (residual layers) – demonstrieren die Rauschartikularität unserer Vorschläge. Beiläufig beweisen wir auch, dass bei ausschließlicher Verwendung von ReLU als Nichtlinearität die Verlustkrümmung immun gegen klassenabhängiges Label-Rauschen ist.