Neuüberprüfung der Long-tailed-Bildklassifikation: Übersicht und Benchmarks mit neuen Bewertungsmetriken

In jüngster Zeit erzielt die Klassifikation von langschwänzigen Bildern erhebliche Forschungsinteresse, da die Datenaufteilung in vielen realen Anwendungsszenarien langschwänzig ist. Zahlreiche Algorithmen wurden entwickelt, um das Problem der Datenungleichgewicht durch eine Beeinflussung des Trainingsprozesses zugunsten seltener Klassen anzugehen. Allerdings evaluieren diese Methoden in der Regel die Leistung auf einem ausgewogenen Testset oder auf mehreren unabhängigen Testsets mit Verteilungen, die sich von der Trainingsdatenverteilung unterscheiden. Angesichts der Tatsache, dass die Testdaten beliebige Verteilungen aufweisen können, sind die derzeitigen Evaluationsstrategien nicht in der Lage, die tatsächliche Klassifikationsleistung objektiv widerzuspiegeln. Wir stellen daher neuartige Evaluationsbenchmarks auf der Grundlage einer Reihe von Testsets mit sich verändernden Verteilungen bereit. Eine Sammlung von Metriken wird entwickelt, um Genauigkeit, Robustheit und Grenzen von Algorithmen beim Lernen unter langschwänziger Verteilung zu messen. Auf Basis unserer Benchmarks re-evaluieren wir die Leistung bestehender Methoden auf den Datensätzen CIFAR10 und CIFAR100, was wertvolle Hinweise für die Auswahl von Techniken zur Datenrebalancierung liefert. Zudem überprüfen wir bestehende Ansätze erneut und gliedern sie in vier Kategorien: Datenausgleich, Merkmalsausgleich, Verlustausgleich und Vorhersageausgleich, abhängig vom Schwerpunkt der jeweiligen Phase im Trainingsprozess.