vor 9 Tagen

Nachjustierte siamesische kontrastive Minierung für langschwänzige Erkennung

Zhisheng Zhong, Jiequan Cui, Zeming Li, Eric Lo, Jian Sun, Jiaya Jia

Abstract

Tiefe neuronale Netze erzielen auf stark klassenunbalancierten Datensätzen schlechte Leistungen. Angesichts der vielversprechenden Ergebnisse des kontrastiven Lernens schlagen wir Rebalanced Siamese Contrastive Mining (ResCom) vor, um die Erkennung auf unbalancierten Datensätzen zu verbessern. Aufgrund mathematischer Analyse und Simulationsergebnisse argumentieren wir, dass das überwachte kontrastive Lernen ein doppeltes Problem der Klassenunbalancierung auf zwei Ebenen aufweist – sowohl auf der Ebene des ursprünglichen Batches als auch auf der Ebene des Siamese-Batches –, das gravierender ist als das Problem des Long-Tailed Classification Learning. In dieser Arbeit führen wir auf der Ebene des ursprünglichen Batches eine klassenbalancierte überwachte kontrastive Verlustfunktion ein, um adaptiv gewichtete Lernraten für verschiedene Klassen zu ermöglichen. Auf der Ebene des Siamese-Batches stellen wir eine klassenbalancierte Warteschlange vor, die für jede Klasse die gleiche Anzahl an Schlüsseln (keys) beibehält. Darüber hinaus stellen wir fest, dass der unbalancierte kontrastive Verlustgradient bezüglich der kontrastiven Logits in positive und negative Komponenten zerlegt werden kann, wobei einfache positive und einfache negative Paare dazu führen, dass der kontrastive Gradient verschwindet. Um dieses Problem zu überwinden, schlagen wir ein überwachtes Mining von schwierigen positiven und negativen Paaren vor, um informativere Paare für die kontrastive Berechnung auszuwählen und die Repräsentationslernung zu verbessern. Schließlich schlagen wir Siamese Balanced Softmax vor, um die gegenseitige Information zwischen den beiden Ansichten annähernd zu maximieren, und integrieren es mit dem kontrastiven Verlust für einstufiges Training. Umfangreiche Experimente zeigen, dass ResCom gegenüber früheren Methoden auf mehreren Long-Tailed-Erkennungsbenchmarks deutlich bessere Ergebnisse erzielt. Unser Code und die Modelle sind öffentlich verfügbar unter: https://github.com/dvlab-research/ResCom.