HyperAIHyperAI
vor 9 Tagen

Feature Space Augmentation für langhaarige Daten

Peng Chu, Xiao Bian, Shaopeng Liu, Haibin Ling
Feature Space Augmentation für langhaarige Daten
Abstract

In der Praxis folgen Daten oft einer langen Schwanzverteilung, da die Häufigkeit jeder Klasse typischerweise unterschiedlich ist. Beispielsweise kann ein Datensatz eine große Anzahl unterrepräsentierter Klassen sowie einige Klassen mit ausreichend umfangreichen Daten enthalten. Ein Modell zur Repräsentation des Datensatzes wird jedoch in der Regel eine hinreichend homogene Leistung über alle Klassen hinweg erwarten lassen. Die Einführung von klassenbalancierten Verlustfunktionen sowie fortschrittlicher Methoden zur Daten-Resampling- und Daten-Augmentierung zählen zu den bewährten Praktiken zur Milderung des Problems der Datenungleichgewichtigkeit. Der andere Aspekt des Problems – die Wiederherstellung fehlender Informationen bei unterrepräsentierten Klassen – muss jedoch auf zusätzliche Wissensgrundlagen zurückgreifen.In dieser Arbeit präsentieren wir einen neuartigen Ansatz zur Bewältigung des langen-Schwanz-Problems, indem wir die unterrepräsentierten Klassen im Merkmalsraum durch Merkmale ergänzen, die aus Klassen mit reichlich verfügbaren Daten gelernt wurden. Insbesondere zerlegen wir die Merkmale jeder Klasse mittels Klassen-Aktivierungskarten (class activation maps) in einen klassengenerischen und einen klassenspezifischen Anteil. Während des Trainings werden dann dynamisch neue Proben unterrepräsentierter Klassen generiert, indem die klassenspezifischen Merkmale der unterrepräsentierten Klassen mit den klassengenerischen Merkmalen verwirrender Klassen kombiniert werden. Unsere Ergebnisse auf verschiedenen Datensätzen wie iNaturalist, ImageNet-LT, Places-LT sowie einer langen-Schwanz-Version von CIFAR zeigen einen Stand der Technik (state-of-the-art)-Leistung.

Feature Space Augmentation für langhaarige Daten | Neueste Forschungsarbeiten | HyperAI