Verbesserte Erkennung von langschwänzigen Klassen durch kontrastbasierte CutMix-Augmentierung

Reale Daten folgen oft einer langschwänzigen Verteilung, bei der wenige Hauptklassen den Großteil der Daten ausmachen und eine große Anzahl von Schwanzklassen nur sehr begrenzte Stichproben enthält. In der Praxis zeigen tiefere Modelle aufgrund der unbalancierten Verteilung häufig eine schlechte Generalisierung auf Schwanzklassen. Um dieses Problem zu lösen, ist die Datenverstärkung (Data Augmentation) zu einem effektiven Mittel geworden, indem neue Stichproben für Schwanzklassen synthetisiert werden. Ein verbreiteter Ansatz hierbei ist CutMix, das explizit Bilder von Schwanzklassen und anderen Klassen mischt und dabei die Labels nach dem Verhältnis der aus beiden Bildern geschnittenen Flächen konstruiert. Allerdings ignorieren flächenbasierte Labels vollständig die inhärente semantische Information der verstärkten Stichproben, was oft zu irreführenden Trainingsignalen führt. Um dieses Problem anzugehen, schlagen wir ein kontrastives CutMix (Contrastive CutMix, ConCutMix) vor, das verstärkte Stichproben mit semantisch konsistenten Labels erstellt, um die Leistung bei langschwänziger Erkennung zu verbessern. Speziell berechnen wir die Ähnlichkeiten zwischen den Stichproben im durch kontrastives Lernen gelernten semantischen Raum und nutzen diese, um die flächenbasierten Labels zu korrigieren. Experimente zeigen, dass unser ConCutMix die Genauigkeit auf Schwanzklassen sowie die Gesamtleistung erheblich verbessert. Zum Beispiel steigern wir mit ResNeXt-50 die Gesamtprecision auf ImageNet-LT um 3,0 % dank einer signifikanten Verbesserung von 3,3 % auf den Schwanzklassen. Wir betonen, dass diese Verbesserungen auch gut auf andere Benchmarks und Modelle übertragbar sind. Unser Code und unsere vortrainierten Modelle sind unter https://github.com/PanHaulin/ConCutMix verfügbar.