Feature-Balanced Loss für die Long-Tailed visuelle Erkennung

Tiefere neuronale Netzwerke leiden häufig unter Leistungseinbußen, wenn die Trainingsdaten langschwänzig sind, da mehrere Hauptklassen den Trainingsprozess dominieren und ein verzerrtes Modell erzeugen. In jüngsten Studien wurde erheblicher Aufwand unternommen, um dieses Problem durch die Gewinnung guter Repräsentationen aus dem Datenspace zu lösen; wenige Arbeiten jedoch befassen sich mit dem Einfluss der Merkmalsnorm auf die Vorhersageergebnisse. In diesem Artikel greifen wir daher das Problem aus dem Merkmalsraum heraus an und schlagen die feature-balanced loss vor. Konkret fördern wir größere Merkmalsnormen für die Schwanzklassen, indem wir ihnen relativ stärkere Anreize geben. Zudem wird die Intensität dieser Anreize schrittweise durch eine Curriculum-Learning-Strategie erhöht, was die Generalisierungsfähigkeit der Schwanzklassen verbessert, ohne die Leistung der Hauptklassen zu beeinträchtigen. Umfassende Experimente auf mehreren etablierten Benchmarks für langschwänzige Erkennung belegen, dass die feature-balanced loss gegenüber den aktuellen State-of-the-Art-Methoden signifikante Leistungsverbesserungen erzielt.