Balancierte kontrastive Lernverfahren für die Long-Tailed-Visual-Recognition

Real-world-Daten folgen typischerweise einer langen Schwanz-Verteilung, bei der eine geringe Anzahl von Majoritätskategorien den Großteil der Daten ausmacht, während die meisten Minderheitskategorien nur eine begrenzte Anzahl an Proben enthalten. Klassifikationsmodelle, die die Kreuzentropie minimieren, haben Schwierigkeiten, die Schwanzkategorien angemessen zu repräsentieren und zu klassifizieren. Obwohl das Problem des Lernens von verzerrungsfreien Klassifikatoren gut untersucht ist, bleibt die Repräsentationslernung unbalancierter Daten untererforscht. In diesem Artikel konzentrieren wir uns auf das Repräsentationslernen für unbalancierte Daten. Kürzlich zeigte das überwachte kontrastive Lernen (supervised contrastive learning, SCL) vielversprechende Leistungen auf ausgewogenen Datensätzen. Durch unsere theoretische Analyse stellen wir jedoch fest, dass SCL für langschwanzförmige Daten nicht in der Lage ist, eine regelmäßige Simplex-Geometrie zu bilden, welche eine ideale geometrische Konfiguration für das Repräsentationslernen darstellt. Um das Optimierungsverhalten von SCL zu korrigieren und die Leistung des visuellen Erkennens bei langschwanzförmigen Daten weiter zu verbessern, schlagen wir eine neue Verlustfunktion für das ausgewogene kontrastive Lernen (balanced contrastive learning, BCL) vor. Im Vergleich zu SCL weisen wir in BCL zwei Verbesserungen auf: die Klassen-Averaging, die die Gradientenbeiträge der negativen Klassen ausgleicht; sowie die Klassen-Komplementierung, die sicherstellt, dass jede Klasse in jedem Mini-Batch erscheint. Die vorgeschlagene Methode des ausgewogenen kontrastiven Lernens (BCL) erfüllt die Bedingung für die Bildung eines regelmäßigen Simplex und unterstützt die Optimierung der Kreuzentropie. Mit BCL ausgestattet erreicht der vorgeschlagene zweigeteilte Rahmen eine stärkere Merkmalsrepräsentation und erzielt wettbewerbsfähige Ergebnisse auf Benchmark-Datensätzen mit langem Schwanz, wie CIFAR-10-LT, CIFAR-100-LT, ImageNet-LT und iNaturalist2018. Unser Quellcode ist unter https://github.com/FlamieZhu/BCL verfügbar.