Mit ein wenig Hilfe von meinen Freunden: Nearest-Neighbor-Kontrastive Lernverfahren für visuelle Darstellungen

Selbstüberwachte Lernalgorithmen, die auf der Instanzdiskriminierung basieren, trainieren Encoder dazu, invariant gegenüber vordefinierten Transformationen derselben Instanz zu sein. Während die meisten Methoden verschiedene Ansichten derselben Bildes als positive Paare für eine kontrastive Verlustfunktion verwenden, interessieren wir uns dafür, positive Paare aus anderen Instanzen der Datensammlung zu nutzen. Unsere Methode, Nearest-Neighbor Contrastive Learning von visuellen Repräsentationen (NNCLR), wählt die nächsten Nachbarn aus dem Datensatz im latenten Raum aus und behandelt sie als positive Beispiele. Dies ermöglicht eine größere semantische Vielfalt im Vergleich zu vordefinierten Transformationen.Wir stellen fest, dass die Verwendung von nächsten Nachbarn als positive Beispiele in kontrastiven Verlustfunktionen die Leistung bei der ImageNet-Klassifikation erheblich verbessert – von 71,7 % auf 75,6 % – und damit frühere State-of-the-Art-Methoden schlägt. Auf semi-supervisierten Lernbenchmarks steigert sich die Leistung signifikant, wenn nur 1 % der ImageNet-Labels zur Verfügung stehen, von 53,8 % auf 56,5 %. Auf Transfer-Learning-Benchmarks schlägt unsere Methode die State-of-the-Art-Methoden (einschließlich überwachten Lernens mit ImageNet) auf 8 von 12 nachgeschalteten Datensätzen. Zudem zeigen wir empirisch, dass unsere Methode weniger abhängig von komplexen Daten-Augmentierungen ist. Bei Training nur mit zufälligen Ausschnitten (random crops) sinkt die ImageNet Top-1-Accuracy lediglich um 2,1 %.