Parametrisches kontrastives Lernen

In diesem Paper stellen wir Parametric Contrastive Learning (PaCo) vor, um die Herausforderung der langen Schwanz-Recognition zu bewältigen. Aufgrund einer theoretischen Analyse beobachten wir, dass die überwachte kontrastive Verlustfunktion tendenziell klassen mit hohen Frequenzen bevorzugt und dadurch die Schwierigkeit des unbalancierten Lernens erhöht. Um dies von einer Optimierungsperspektive aus auszugleichen, führen wir eine Reihe parametrischer, klassenweise lernbarer Zentren ein. Darüber hinaus analysieren wir unsere PaCo-Verlustfunktion unter einer ausgewogenen Bedingung. Unsere Analyse zeigt, dass PaCo die Intensität des Zusammenziehens von Proben derselben Klasse adaptiv verstärken kann, je mehr Proben mit ihren entsprechenden Zentren zusammengezogen werden, und somit das Lernen schwieriger Beispiele fördert. Experimente an langen Schwanz-Datensätzen wie CIFAR, ImageNet, Places und iNaturalist 2018 belegen den neuen Stand der Technik bei der langen Schwanz-Recognition. Auf dem vollen ImageNet erreichen Modelle, die mit der PaCo-Verlustfunktion trainiert wurden, bei verschiedenen ResNet-Backbones höhere Leistungen als die überwachte kontrastive Lernmethode; beispielsweise erreicht unser ResNet-200 eine Top-1-Accuracy von 81,8 %. Der Quellcode ist unter https://github.com/dvlab-research/Parametric-Contrastive-Learning verfügbar.