IMAE für lärstabstimmiges Lernen: Der mittlere absolute Fehler behandelt Beispiele nicht gleich und die Varianz der Gradientenstärke ist relevant.

In dieser Arbeit untersuchen wir robustes tiefes Lernen gegen abnorme Trainingsdaten aus der Perspektive des in empirischen Verlustfunktionen integrierten Beispielsgewichts, d.h. den Gradientenbetrag bezüglich der Logits, ein Aspekt, der bisher nicht gründlich erforscht wurde. Aus diesem Grund haben wir zwei wesentliche Erkenntnisse: (1) Der mittlere absoluter Fehler (MAE) behandelt Beispiele nicht gleichwertig. Wir präsentieren neue Beobachtungen und fundierte Analysen zum MAE, der theoretisch als robust gegen Rauschen bewiesen ist. Erstens legen wir sein Underfitting-Problem in der Praxis offen. Zweitens analysieren wir, dass die Rauschrobustheit des MAE dadurch entsteht, dass unsichere Beispiele betont werden, anstatt die Trainingsbeispiele gleichwertig zu behandeln, wie es in früheren Arbeiten behauptet wurde. (2) Die Varianz des Gradientenbetrags ist von Bedeutung. Wir schlagen eine effektive und einfache Lösung vor, um die Anpassungsfähigkeit des MAEs zu verbessern, während seine Rauschrobustheit erhalten bleibt. Ohne das allgemeine Gewichtungsverfahren des MAEs zu ändern, d.h., welche Beispiele höhere Gewichte erhalten, passen wir einfach dessen Gewichtungsvarianz nichtlinear an, sodass das Einflussverhältnis zwischen zwei Beispielen angepasst wird. Unsere Lösung wird als verbesserter MAE (IMAE) bezeichnet. Wir beweisen die Effektivität des IMAE durch umfangreiche Experimente: Bildklassifizierung unter sauberen Labels, synthetischem Label-Rauschen und realweltlichen unbekannten Rauschen.