HyperAIHyperAI
vor 3 Monaten

CUDA: Curriculum of Data Augmentation for Long-Tailed Recognition

Sumyeong Ahn, Jongwoo Ko, Se-Young Yun
CUDA: Curriculum of Data Augmentation for Long-Tailed Recognition
Abstract

Klassenungleichgewichte treten häufig in realen Anwendungsaufgaben auf, und herkömmliche tiefen Lernalgorithmen sind bekannt dafür, auf unbalancierten Trainingsdatensätzen eine Leistungsverschlechterung zu zeigen. Um dieses Problem zu mildern, haben zahlreiche Ansätze darauf abgezielt, die Klassen durch Umgewichtung oder Umstichproben der Trainingsdaten auszugleichen. Diese Ausgleichsverfahren erhöhen den Einfluss der Minderheitsklassen und verringern den Einfluss der Mehrheitsklassen auf die Modellausgabe. Allerdings können die extrahierten Darstellungen aufgrund der begrenzten Anzahl an Minderheitsproben von geringer Qualität sein. Um diese Einschränkung zu überwinden, wurden mehrere Methoden entwickelt, die die Darstellungen von Minderheitsproben durch Ausnutzung der Merkmale der Mehrheitsklassen verbessern. Trotz umfangreicher neuerer Forschungen wurde bisher keine tiefe Analyse der Auswahl der zu augmentierenden Klassen sowie der Stärke der Augmentation durchgeführt. In dieser Studie untersuchen wir zunächst die Korrelation zwischen dem Grad der Datenaugmentation und der klassenspezifischen Leistung und stellen fest, dass zur effektiven Minderung von Klassenungleichgewichten jeweils ein geeigneter Grad der Augmentation für jede Klasse festgelegt werden muss. Ausgehend von diesem Befund schlagen wir einen einfachen und effizienten neuen Lehrplan vor, der darauf abzielt, die jeweils geeignete Stärke der Datenaugmentation pro Klasse zu ermitteln – den sogenannten CUDA: CUrriculum of Data Augmentation for long-tailed recognition. CUDA lässt sich problemlos in bestehende Methoden zur Erkennung langschwanziger Verteilungen integrieren. Die Ergebnisse experimenteller Evaluierungen zeigen, dass CUDA im Vergleich zu aktuellen State-of-the-Art-Methoden eine bessere Generalisierungsleistung erzielt, sowohl auf verschiedenen unbalancierten Datensätzen wie CIFAR-100-LT, ImageNet-LT als auch iNaturalist 2018.

CUDA: Curriculum of Data Augmentation for Long-Tailed Recognition | Forschungsarbeiten | HyperAI