Divide and Contrast: Selbstüberwachtes Lernen aus unkuratierten Daten

Selbstüberwachendes Lernen verspricht, große Mengen an unbeschrifteten Daten effizient zu nutzen, doch der größte Teil der bisherigen Fortschritte beschränkte sich auf hochgradig konservierte Vortrainingsdatensätze wie ImageNet. Wir untersuchen die Auswirkungen von Kontrastlernverfahren auf größere, weniger konservierte Bild-Datensätze wie YFCC und stellen fest, dass sich hier tatsächlich erhebliche Unterschiede in der Qualität der resultierenden Darstellungen ergeben. Wir vermuten, dass dieser Konservierungs-Gap auf eine Veränderung der Verteilung der Bildklassen zurückzuführen ist – die Verteilung ist vielfältiger und hat einen schweren Schwanz – was zu weniger relevanten negativen Beispielen führt, von denen gelernt werden kann. Um diese Hypothese zu testen, stellen wir einen neuen Ansatz vor: Divide and Contrast (DnC), der zwischen kontrastivem Lernen und clusterbasiertem Mining schwerer negativer Beispiele wechselt. Bei der Vortrainierung auf weniger konservierten Datensätzen verbessert DnC signifikant die Leistung selbstüberwachenden Lernens bei nachgeschalteten Aufgaben und bleibt gleichzeitig mit dem aktuellen Stand der Technik auf konservierten Datensätzen wettbewerbsfähig.