Ein einfaches Framework für kontrastives Lernen visueller Repräsentationen

Dieses Papier stellt SimCLR vor: ein einfaches Framework für kontrastives Lernen visueller Repräsentationen. Wir vereinfachen neu vorgeschlagene kontrastive selbstüberwachte Lernalgorithmen, ohne spezialisierte Architekturen oder einen Speicherbank zu benötigen. Um zu verstehen, welche Faktoren es ermöglichen, dass kontrastive Vorhersageaufgaben nützliche Repräsentationen lernen können, untersuchen wir die wesentlichen Komponenten unseres Frameworks systematisch. Wir zeigen, dass (1) die Kombination von Datenverstärkungen eine entscheidende Rolle bei der Definition effektiver Vorhersageaufgaben spielt, (2) die Einführung einer lernfähigen nichtlinearen Transformation zwischen der Repräsentation und dem kontrastiven Verlust die Qualität der gelernten Repräsentationen erheblich verbessert und (3) das kontrastive Lernen von größeren Batch-Größen und mehr Trainingschritten profitiert im Vergleich zum überwachten Lernen. Durch die Kombination dieser Erkenntnisse sind wir in der Lage, frühere Methoden des selbstüberwachten und halbüberwachten Lernens auf ImageNet deutlich zu übertreffen. Ein linearer Klassifikator, der auf den durch SimCLR gelernten selbstüberwachten Repräsentationen trainiert wurde, erreicht eine Top-1-Akkuratesse von 76,5%, was eine relative Verbesserung um 7% gegenüber dem bisherigen Stand der Technik darstellt und die Leistung eines überwachten ResNet-50 entspricht. Wenn das Modell nur mit 1% der Labels feinjustiert wird, erreichen wir eine Top-5-Akkuratesse von 85,8%, wobei wir AlexNet mit 100-mal weniger Labels übertreffen.