Heteroskedastische und unbalancierte tiefe Lernverfahren mit adaptiver Regularisierung

Realweltgroße, großskalige Datensätze sind heteroskedastisch und unbalanciert – die Labels weisen unterschiedliche Unsicherheitsgrade auf, und die Labelverteilungen sind langschwänzig. Heteroskedastie und Unbalanciertheit stellen tiefe Lernalgorithmen vor Herausforderungen, da es schwierig ist, falsch markierte, mehrdeutige und seltene Beispiele voneinander zu unterscheiden. Die gleichzeitige Behandlung von Heteroskedastie und Unbalanciertheit ist bisher wenig erforscht. Wir schlagen eine datenabhängige Regularisierungstechnik für heteroskedastische Datensätze vor, die verschiedene Regionen des Eingaberaums unterschiedlich regularisiert. Inspiriert durch die theoretische Ableitung der optimalen Regularisierungsstärke in einem eindimensionalen, nichtparametrischen Klassifizierungsmodell adaptiert unser Ansatz die Regularisierung stärker für Datenpunkte in Regionen mit hoher Unsicherheit und geringer Dichte. Wir testen unsere Methode an mehreren Benchmark-Aufgaben, einschließlich eines realweltlichen, heteroskedastischen und unbalancierten Datensatzes, WebVision. Unsere Experimente bestätigen unsere Theorie und zeigen eine signifikante Verbesserung gegenüber anderen Ansätzen im Bereich des noise-robusten tiefen Lernens.