Peer Loss Functions: Lernen aus verrauschten Etiketten ohne Kenntnis der Rauschraten

Das Lernen mit fehlerhaften Etiketten stellt eine häufige Herausforderung im überwachten Lernen dar. Bestehende Ansätze erfordern oft, dass Praktiker Geräuschraten spezifizieren, also eine Menge von Parametern, die die Schwere der Etikettengenauigkeitsstörungen im Problem steuern, wobei diese Spezifikationen entweder als gegeben angenommen oder mittels zusätzlicher Schritte geschätzt werden müssen. In dieser Arbeit führen wir eine neue Familie von Verlustfunktionen ein, die wir als Peer-Verlustfunktionen bezeichnen, welche das Lernen aus fehlerhaften Etiketten ermöglicht, ohne eine a priori-Spezifikation der Geräuschraten zu erfordern. Peer-Verlustfunktionen arbeiten innerhalb des etablierten Rahmens der empirischen Risikominimierung (ERM). Wir zeigen, dass unter milden Bedingungen die Durchführung von ERM mit Peer-Verlustfunktionen auf einem fehlerhaften Datensatz zu einem optimalen oder nahezu optimalen Klassifikator führt, als ob ERM auf den zugrundeliegenden sauberen Trainingsdaten durchgeführt worden wäre – auf die wir jedoch keinen Zugriff haben. Wir ergänzen unsere theoretischen Ergebnisse durch eine umfassende Reihe von Experimenten. Peer-Verlust bietet eine Möglichkeit, die Modellentwicklung bei potenziell fehlerhaften Trainingsetiketten zu vereinfachen und kann als robuster Kandidat für Verlustfunktionen in solchen Situationen empfohlen werden.