HyperAIHyperAI
vor 8 Tagen

Neubewertung des Wertes von Labels zur Verbesserung des Lernens bei klassenunbalancierten Daten

Yuzhe Yang, Zhi Xu
Neubewertung des Wertes von Labels zur Verbesserung des Lernens bei klassenunbalancierten Daten
Abstract

Realworld-Daten weisen häufig lange Schwänze und starke Klassenungleichgewichte auf, was große Herausforderungen für tiefe Erkennungsmodelle darstellt. Wir identifizieren ein anhaltendes Dilemma hinsichtlich des Nutzens von Labels im Kontext des unbalancierten Lernens: Einerseits führt die Überwachung durch Labels typischerweise zu besseren Ergebnissen als deren unüberwachte Alternativen; andererseits verursacht stark unbalancierte Daten zwangsläufig einen „Label-Bias“ im Klassifikator, wodurch die Entscheidungsgrenze erheblich durch die überwiegenden Klassen beeinflusst werden kann. In dieser Arbeit untersuchen wir diese beiden Aspekte von Labels systematisch. Theoretisch und empirisch zeigen wir, dass das Lernen mit unbalancierten Klassen sowohl im semi-supervised als auch im self-supervised Kontext erhebliche Vorteile bringen kann. Konkret bestätigen wir: (1) Positiv betrachtet sind unbalancierte Labels wertvoll: Bei Zugang zu mehr ungelabelten Daten können die ursprünglichen Labels im semi-supervised Rahmen mit den zusätzlichen Daten genutzt werden, um den Label-Bias zu verringern, was die Leistung des endgültigen Klassifikators erheblich verbessert; (2) Negativ jedoch argumentieren wir, dass unbalancierte Labels nicht immer nützlich sind: Klassifikatoren, die zunächst self-supervised vortrainiert wurden, überlegen stets ihren entsprechenden Baselines. Umfangreiche Experimente an großen, unbalancierten Datensätzen bestätigen unsere theoriebasierten Strategien und zeigen eine überlegene Leistung gegenüber vorherigen State-of-the-Art-Methoden. Unsere aufschlussreichen Erkenntnisse unterstreichen die Notwendigkeit, die Nutzung unbalancierter Labels bei realistischen langen-Schweif-Aufgaben neu zu überdenken. Der Quellcode ist verfügbar unter https://github.com/YyzHarry/imbalanced-semi-self.

Neubewertung des Wertes von Labels zur Verbesserung des Lernens bei klassenunbalancierten Daten | Neueste Forschungsarbeiten | HyperAI