CMW-Net: Lernen einer klassenbewussten Gewichtungskarte für robustes Deep Learning

Moderne tiefe neuronale Netze neigen leicht dazu, überzufitten zu schiefen Trainingsdaten mit verfälschten Etiketten oder Klassenungleichgewichten. Stichproben-Weighting-Methoden werden häufig eingesetzt, um dieses Datenschiefe-Problem zu mildern. Die meisten aktuellen Ansätze erfordern jedoch, dass die Gewichtungsschemata sowie zusätzliche Hyperparameter manuell vorab spezifiziert werden, wobei diese auf die Eigenschaften des untersuchten Problems und der Trainingsdaten abgestimmt sein müssen. Dadurch sind sie aufgrund ihrer hohen Komplexität und der starken Variabilität der Schiefe in verschiedenen Klassen in praktischen Anwendungen nur schwer allgemein einsetzbar. Um dieses Problem anzugehen, schlagen wir ein Meta-Modell vor, das in der Lage ist, ein explizites Gewichtungsschema adaptiv direkt aus den Daten zu lernen. Konkret betrachten wir jede Trainingsklasse als ein eigenständiges Lernproblem und zielen darauf ab, eine explizite Gewichtungsfunktion zu extrahieren, die als Eingabe die Stichprobenverluste und Task-/Klassenmerkmale verwendet und als Ausgabe die Stichproben-Gewichte liefert. Ziel ist es, adaptiv variierende Gewichtungsschemata für unterschiedliche Stichprobenklassen basierend auf deren jeweiligen inhärenten Schiebecharakteristika zu implementieren. Sowohl synthetische als auch reale Datensätze bestätigen die Fähigkeit unseres Ansatzes, in verschiedenen Schiebe-Szenarien – wie Klassenungleichgewicht, merkmalsunabhängige und merkmalsabhängige Etikettenschiefe sowie komplexere, über die klassischen Fälle hinausgehende Schiebeszenarien – angemessene Gewichtungsschemata zu erzielen. Zudem wird die Task-Transferierbarkeit des gelernten Gewichtungsschemas nachgewiesen, indem die auf dem vergleichsweise kleineren CIFAR-10-Datensatz gelernte Gewichtungsfunktion direkt auf das viel größere WebVision-Datenset angewandt wird. Dabei lässt sich eine deutliche Leistungssteigerung erzielen im Vergleich zu vorherigen State-of-the-Art-Methoden, ohne zusätzliche Hyperparameter-Optimierung oder Meta-Gradientenabstiegs-Schritte. Die allgemeine Anwendbarkeit unseres Ansatzes für mehrere robuste Probleme im Bereich des tiefen Lernens – einschließlich partiellen Label-Lernens, semi-supervised Learning und selektiven Klassifikation – wurde ebenfalls validiert.