Verteilungsrobuste Verlustfunktion für Lernprozesse mit langen Schwänzen

Realworld-Daten sind oft unbalanciert und langschwanzig, doch tiefe Modelle haben Schwierigkeiten, seltene Klassen korrekt zu erkennen, wenn häufige Klassen im Vordergrund stehen. Um unbalancierte Daten zu adressieren, versuchen die meisten Studien, die Daten, die Verlustfunktion oder den Klassifikator auszugleichen, um die Klassifizierungsverzerrung zugunsten der „Head“-Klassen zu verringern. Weitaus weniger Aufmerksamkeit wurde den latenten Darstellungen gewidmet, die mit unbalancierten Daten gelernt werden. Wir zeigen, dass der Feature-Extractor-Teil tiefer Netzwerke stark von dieser Verzerrung betroffen ist. Wir schlagen eine neue Verlustfunktion basierend auf Robustheitstheorie vor, die das Modell anleitet, hochwertige Darstellungen sowohl für Head- als auch für Tail-Klassen zu lernen. Obwohl die allgemeine Form des Robustheitsverlustes schwer zu berechnen sein kann, leiten wir eine einfach zu berechnende obere Schranke ab, die effizient minimiert werden kann. Dieser Ansatz reduziert die Darstellungsverzerrung zugunsten der Head-Klassen im Merkmalsraum und erreicht neue SOTA-Ergebnisse auf den Benchmarks CIFAR100-LT, ImageNet-LT und iNaturalist für langschwanzige Daten. Wir beobachten, dass das Training mit Robustheit die Erkennungsgenauigkeit für Tail-Klassen verbessert, während die Genauigkeit der Head-Klassen weitgehend erhalten bleibt. Der neue Robustheitsverlust kann mit verschiedenen Techniken zur Klassifikator-Ausgleichung kombiniert werden und auf Darstellungen mehrerer Schichten des tiefen Modells angewendet werden.