Ist Label Smoothing in der Lage, Label-Rauschen zu mildern?

Label Smoothing wird häufig beim Training tiefer Lernmodelle eingesetzt, wobei einhundertprozentige (one-hot) Trainingslabels mit uniformen Labelvektoren gemischt werden. Empirisch hat sich gezeigt, dass Glättung sowohl die prädiktive Leistung als auch die Kalibrierung des Modells verbessert. In diesem Paper untersuchen wir, ob Label Smoothing auch als Mittel zur Bewältigung von Label-Rauschen wirksam ist. Obwohl Label Smoothing das Problem offensichtlich verschärft – da er äquivalent dazu ist, symmetrisches Rauschen in die Labels einzufügen – zeigen wir, wie es mit einer allgemeinen Familie von Verfahren zur Verlustkorrektur aus der Literatur zum Label-Rauschen zusammenhängt. Aufbauend auf diesen Zusammenhang zeigen wir, dass Label Smoothing unter Vorliegen von Label-Rauschen konkurrenzfähig mit Verlustkorrekturverfahren ist. Darüber hinaus zeigen wir, dass die Anwendung von Label Smoothing beim Lehrermodell bei der Modell-Distillation aus rauschbehafteten Daten vorteilhaft ist; dies steht im Gegensatz zu jüngeren Erkenntnissen für rauschfreie Probleme und liefert zusätzliche Einsicht in die Szenarien, in denen Label Smoothing besonders nützlich ist.