Lösung der Ineffizienz des selbstüberwachten Repräsentationslernens

Selbstüberwachtes Lernen (insbesondere kontrastives Lernen) hat aufgrund seines großen Potenzials zur unsupervisierten Erstellung diskriminativer Repräsentationen großes Interesse geweckt. Trotz der anerkannten Erfolge leiden bestehende Methoden des kontrastiven Lernens jedoch unter sehr geringer Lerneffizienz, zum Beispiel benötigen sie etwa zehnmal so viele Trainings-Epochen wie überwachtes Lernen, um vergleichbare Erkennungsleistungen zu erzielen. In dieser Arbeit legen wir zwei widersprüchliche Phänomene im kontrastiven Lernen offen, die wir als Unterclustern und Überclustern bezeichnen, welche die wichtigsten Hindernisse für die Lerneffizienz darstellen. Unterclustern bedeutet, dass das Modell nicht effizient lernen kann, die Unterschiede zwischen interklassischen Stichproben zu erkennen, wenn die negativen Stichprobenpaare für das kontrastive Lernen nicht ausreichen, um alle tatsächlichen Objektklassen zu differenzieren. Überclustern impliziert, dass das Modell nicht effizient aus übermäßigen negativen Stichprobenpaaren lernen kann und dadurch gezwungen ist, Stichproben derselben tatsächlichen Klassen in verschiedene Cluster zu überclustern. Um diese beiden Probleme gleichzeitig zu überwinden, schlagen wir ein neues Framework für selbstüberwachtes Lernen vor, das einen abgeschnittenen Triplettenverlust verwendet. Genauer gesagt nutzen wir einen Triplettenverlust, der darauf abzielt, den relativen Abstand zwischen dem positiven Paar und den negativen Paaren zu maximieren, um das Problem des Unterclusterns anzugehen; und wir bilden das negative Paar durch die Auswahl eines negativen Stellvertreters aus allen negativen Stichproben, um das Problem des Überclusterns zu vermeiden – was durch ein Modell der Bernoulli-Verteilung garantiert wird. Wir evaluieren unser Framework umfassend in mehreren großen Benchmarks (z.B. ImageNet, SYSU-30k und COCO). Die Ergebnisse zeigen deutlich die Überlegenheit unseres Modells (z.B. hinsichtlich der Lerneffizienz) gegenüber den neuesten Stand-of-the-Art-Methoden. Quellcode verfügbar unter: https://github.com/wanggrun/triplet .