Verallgemeinerte parametrische kontrastive Lernverfahren

In diesem Artikel stellen wir Generalized Parametric Contrastive Learning (GPaCo/PaCo) vor, das sowohl auf unbalancierten als auch auf balancierten Datensätzen gut funktioniert. Aufgrund theoretischer Analysen beobachten wir, dass der überwachte Kontrastive-Verlust dazu neigt, Klassen mit hoher Frequenz zu bevorzugen, was die Schwierigkeit des Lernens unter unbalancierten Bedingungen erhöht. Um dies aus einer Optimierungsperspektive zu korrigieren, führen wir eine Menge parametrischer, klassenweise lernbarer Zentren ein. Darüber hinaus analysieren wir die GPaCo/PaCo-Verlustfunktion unter einer balancierten Datensituation. Unsere Analyse zeigt, dass GPaCo/PaCo die Intensität des Zusammenziehens von Proben derselben Klasse adaptiv verstärken kann, je mehr Proben mit ihren jeweiligen Zentren zusammengezogen werden, und somit das Lernen schwieriger Beispiele fördert. Experimente auf Long-Tailed-Benchmarks belegen, dass GPaCo die neue State-of-the-Art für die Long-Tailed-Recognition erreicht. Auf dem vollen ImageNet zeigen Modelle, die von CNNs bis hin zu Vision Transformers reichen und mit dem GPaCo-Verlust trainiert wurden, eine bessere Generalisierungsleistung und stärkere Robustheit im Vergleich zu MAE-Modellen. Zudem lässt sich GPaCo auf die semantische Segmentierung anwenden, wobei signifikante Verbesserungen auf den vier populärsten Benchmarks beobachtet werden. Unser Quellcode ist unter https://github.com/dvlab-research/Parametric-Contrastive-Learning verfügbar.