Selbstüberwachtes Lernen für das large-scale unüberwachte Bildclustering

Das unüberwachte Lernen hat sich sowohl für Forscher als auch für Praktiker im Maschinellen Lernen stets als attraktiv erwiesen, da es ihnen ermöglicht, den teuren und komplizierten Prozess des Datensatz-Beschriftens zu umgehen. Dennoch stellt das unüberwachte Lernen von komplexen Daten eine Herausforderung dar, und selbst die besten Ansätze weisen eine deutlich schwächere Leistung auf als ihre überwachten Gegenstücke. Das selbst-überwachte Deep Learning ist zu einem mächtigen Instrument für das Repräsentationslernen in der Computer Vision geworden. Allerdings wurden diese Methoden bisher nicht in einem vollständig unüberwachten Szenario evaluiert. In dieser Arbeit schlagen wir ein einfaches Schema für die unüberwachte Klassifizierung basierend auf selbst-überwachten Repräsentationen vor. Wir evaluieren den vorgeschlagenen Ansatz mit mehreren aktuellen selbst-überwachten Methoden und zeigen, dass er wettbewerbsfähige Ergebnisse bei der ImageNet-Klassifizierung erzielt (39 % Genauigkeit bei ImageNet mit 1000 Clustern und 46 % bei Überclustering). Wir empfehlen, die unüberwachte Evaluierung zu einem Satz von Standardbenchmarks für das selbst-überwachte Lernen hinzuzufügen. Der Code ist unter https://github.com/Randl/kmeans_selfsuper verfügbar.