Tiefe Clustering für das unüberwachte Lernen von visuellen Merkmalen

Clustering ist eine Klasse von unüberwachten Lernmethoden, die in der Computer Vision intensiv angewendet und untersucht wurde. Wenig Arbeit wurde bisher darauf verwendet, es für das end-to-end Training visueller Merkmale auf großen Datensätzen anzupassen. In dieser Arbeit stellen wir DeepCluster vor, eine Clustermethode, die gleichzeitig die Parameter eines neuronalen Netzes und die Clusterzuordnungen der daraus resultierenden Merkmale lernt. DeepCluster gruppiert die Merkmale iterativ mit einem standardisierten Clusteralgorithmus, dem k-Means-Algorithmus, und nutzt die darauffolgenden Zuordnungen als Überwachung, um die Gewichte des Netzes zu aktualisieren. Wir wenden DeepCluster auf das unüberwachte Training konvolutionaler Neuronalnetze (CNNs) an großen Datensätzen wie ImageNet und YFCC100M an. Das resultierende Modell übertrifft den aktuellen Stand der Technik bei allen Standardbenchmarks erheblich.