vor 8 Tagen

Robuste Trainingsunterstützung unter Label-Rauschen durch Überparametrisierung

Sheng Liu, Zhihui Zhu, Qing Qu, Chong You

Abstract

Kürzlich haben überparametrisierte tiefe Netzwerke, die über eine zunehmend größere Anzahl an Netzwerkparametern im Vergleich zu Trainingsbeispielen verfügen, die Leistungsfähigkeit moderner maschineller Lernverfahren dominiert. Bei verunreinigten Trainingsdaten ist jedoch gut bekannt, dass überparametrisierte Netzwerke tendenziell überanpassen und schlecht generalisieren. In dieser Arbeit stellen wir einen prinzipiengeleiteten Ansatz für den robusten Training von überparametrisierten tiefen Netzwerken in Klassifizierungsaufgaben vor, bei denen ein Teil der Trainingslabels verfälscht ist. Der zentrale Gedanke ist dabei erstaunlich einfach: Label-Rauschen ist spärlich und inkohärent mit dem Netzwerk, das aus reinen Daten gelernt wurde; daher modellieren wir das Rauschen und lernen, es von den Daten zu trennen. Konkret modellieren wir das Label-Rauschen mittels einer zusätzlichen spärlichen Überparametrisierungsterm und nutzen implizite algorithmische Regularisierungen, um die zugrundeliegenden Verfälschungen zu rekonstruieren und zu separieren. Erstaunlicherweise erreichen wir bei praktischer Anwendung dieses einfachen Verfahrens auf einer Vielzahl realer Datensätze state-of-the-art Testgenauigkeit gegenüber Label-Rauschen. Zudem stützen theoretische Analysen an vereinfachten linearen Modellen unsere experimentellen Ergebnisse, indem sie zeigen, dass unter inkohärenten Bedingungen eine exakte Trennung zwischen spärlichem Rauschen und niedrigrangigen Daten möglich ist. Diese Arbeit eröffnet zahlreiche interessante Forschungspfade zur Verbesserung überparametrisierter Modelle durch spärliche Überparametrisierung und implizite Regularisierung.