Verallgemeinerte Jensen-Shannon-Divergenz-Verlustfunktion für das Lernen mit verrauschten Labels

Bisherige Arbeiten haben gezeigt, dass es vorteilhaft ist, noise-robuste Verlustfunktionen, beispielsweise den mittleren absoluten Fehler (MAE), mit der herkömmlichen kategorischen Verlustfunktion, beispielsweise der Kreuzentropie (CE), zu kombinieren, um deren Lernbarkeit zu verbessern. Hier schlagen wir vor, die Jensen-Shannon-Divergenz als noise-robuste Verlustfunktion zu verwenden und zeigen, dass sie auf interessante Weise zwischen CE und MAE interpoliert, wobei ein steuerbarer Mischparameter die Übergangsform kontrolliert. Darüber hinaus machen wir eine entscheidende Beobachtung: Die Kreuzentropie zeigt eine geringere Konsistenz in der Nähe von verrauschten Datenpunkten. Aufgrund dieser Beobachtung verwenden wir eine verallgemeinerte Version der Jensen-Shannon-Divergenz für mehrere Verteilungen, um die Konsistenz in der Umgebung von Datenpunkten zu fördern. Mit dieser Verlustfunktion erzielen wir state-of-the-art-Ergebnisse sowohl auf synthetischen Datensätzen (CIFAR) als auch auf realen Datensätzen (z. B. WebVision) bei unterschiedlichen Raten von Rauschen.