Entkopplung von Repräsentation und Klassifikator für die Erkennung langer Schwänze

Die langschwänzige Verteilung der visuellen Welt stellt tiefen Lern-basierten Klassifikationsmodellen große Herausforderungen bei der Bewältigung des Problems der Klassenungleichverteilung. Bestehende Lösungen umfassen in der Regel klassenbalancierende Strategien, z.B. durch Gewichtung von Verlustfunktionen, Wiederholungsabtastung von Daten oder Transferlearning von Haupt- zu Schwanzklassen, wobei die meisten dieser Ansätze dem Schema gemeinsamen Lernens von Repräsentationen und Klassifizierern folgen. In dieser Arbeit entkoppeln wir den Lernprozess in Repräsentationslernen und Klassifizierung und untersuchen systematisch, wie verschiedene Balancierungsstrategien sie für die langschwänzige Erkennung beeinflussen. Die Ergebnisse sind überraschend: (1) Datenungleichverteilung muss bei der Lernung hochwertiger Repräsentationen kein Problem sein; (2) mit Repräsentationen, die durch das einfachste instanzbalancierte (natürliche) Abtastverfahren gelernt wurden, ist es auch möglich, eine starke langschwänzige Erkennungsfähigkeit durch Anpassung nur des Klassifiziersers zu erzielen. Wir führen umfangreiche Experimente durch und erreichen neue Standartleistungen auf gängigen langschwänzigen Benchmarks wie ImageNet-LT, Places-LT und iNaturalist, was zeigt, dass es möglich ist, sorgfältig konzipierte Verlustfunktionen, Abtaststrategien und sogar komplexe Module mit Speicher durch einen geradlinigen Ansatz zu überbieten, der Repräsentation und Klassifizierung entkoppelt. Unser Code ist unter https://github.com/facebookresearch/classifier-balancing verfügbar.