vor 8 Tagen

Zu glätten oder nicht? Wenn Label Smoothing auf verrauschte Labels trifft

Jiaheng Wei, Hangyu Liu, Tongliang Liu, Gang Niu, Masashi Sugiyama, Yang Liu

Abstract

Label Smoothing (LS) ist ein zunehmend verbreitetes Lernparadigma, das das positiv gewichtete Mittel aus harten Trainingslabels und gleichmäßig verteilten weichen Labels nutzt. Es wurde gezeigt, dass LS als Regularisierung für Daten mit harten Labels wirkt und somit die Generalisierungsfähigkeit des Modells verbessert. Später wurde berichtet, dass LS zudem zur Verbesserung der Robustheit beiträgt, wenn mit verrauschten Labels gelernt wird. Allerdings beobachteten wir, dass der Vorteil von LS in einer hochgradig verrauschten Label-Situation verloren geht. Intuitiv lässt sich dies darauf zurückführen, dass die Entropie von $\mathbb{P}(\text{verrauschte Label}|X)$ mit steigender Rauschrate ansteigt, wodurch eine zusätzliche Anwendung von LS dazu führen kann, dass die geschätzte Posterior zu stark „glättet“ wird. Wir stellten fest, dass mehrere Lösungsansätze aus der Literatur zum Lernen mit verrauschten Labels vielmehr eng mit negativem oder nicht-Label Smoothing (NLS) verwandt sind, welches entgegengesetzt zu LS wirkt und durch die Verwendung einer negativen Gewichtung zur Kombination von harten und weichen Labels definiert ist! Wir liefern Erklärungen für die Eigenschaften von LS und NLS im Kontext des Lernens mit verrauschten Labels. Unter anderen etablierten Eigenschaften zeigen wir theoretisch, dass NLS bei hohen Label-Rauschraten vorteilhafter ist. Um unsere Erkenntnisse zu untermauern, präsentieren wir umfangreiche experimentelle Ergebnisse auf mehreren Benchmarks. Der Quellcode ist öffentlich unter https://github.com/UCSC-REAL/negative-label-smoothing verfügbar.