Schwach beschriftete kontrastive Lernverfahren

Unüberwachtes Lernen visueller Darstellungen hat in der Computer Vision-Community aufgrund der jüngsten Fortschritte im Bereich des kontrastiven Lernens erhebliche Aufmerksamkeit erfahren. Die meisten bestehenden kontrastiven Lernframeworks setzen die Instanzdiskriminierung als Vor-Aufgabe ein, bei der jede einzelne Instanz als eine unterschiedliche Klasse betrachtet wird. Dieser Ansatz führt jedoch zwangsläufig zu Klassenkollisionen, die die Qualität der gelernten Darstellungen beeinträchtigen. Ausgehend von dieser Beobachtung stellen wir ein schwach überwachtes kontrastives Lernframework (WCL) vor, um dieses Problem zu adressieren. Konkret basiert unser vorgeschlagenes Framework auf zwei Projektionsköpfen: Der eine Kopf führt die klassische Instanzdiskriminierung durch, während der andere Kopf eine graphbasierte Methode nutzt, um ähnliche Beispiele zu erkennen und schwache Labels zu generieren. Auf Basis dieser schwachen Labels wird anschließend ein überwachtes kontrastives Lernen durchgeführt, um ähnliche Bilder enger zusammenzurücken. Darüber hinaus führen wir eine K-Nächste-Nachbarn-basierte Multi-Crop-Strategie ein, um die Anzahl positiver Beispiele zu erhöhen. Umfangreiche experimentelle Ergebnisse zeigen, dass WCL die Qualität selbstüberwachter Darstellungen auf verschiedenen Datensätzen verbessert. Besonders hervorzuheben ist, dass wir eine neue State-of-the-Art-Leistung im Bereich des halbüberwachten Lernens erzielen. Mit lediglich 1 % und 10 % gelabelten Beispielen erreicht WCL bei Verwendung von ResNet50 eine Top-1-Accuracy von 65 % bzw. 72 % auf ImageNet – Werte, die sogar die Ergebnisse von SimCLRv2 mit ResNet101 übersteigen.