Kontrastive hierarchische Clustering

Tiefes Clustering wird traditionell von flachen Modellen dominiert, die einen Datensatz in eine vordefinierte Anzahl von Gruppen aufteilen. Obwohl neuere Methoden auf gängigen Benchmarks eine äußerst hohe Übereinstimmung mit der Grundwahrheit erreichen, ist die in der flachen Partition enthaltene Information begrenzt. In diesem Paper stellen wir CoHiClust vor, ein kontrastives hierarchisches Clustering-Modell auf Basis tiefer neuronaler Netze, das typischerweise auf Bilddaten angewendet werden kann. Durch die Anwendung eines selbstüberwachten Lernansatzes leitet CoHiClust das Basismodell ohne Zugriff auf gelabelte Daten in einen binären Baum um. Die hierarchische Clustering-Struktur ermöglicht die Analyse der Beziehungen zwischen Clustern sowie die Messung der Ähnlichkeit zwischen Datenpunkten. Experimente zeigen, dass CoHiClust eine sinnvolle Clusteraufteilung erzeugt, die mit unserer Intuition und der Bildsemantik übereinstimmt. Zudem erreicht es eine überlegene Clustering-Genauigkeit auf den meisten Bild-Datensätzen im Vergleich zu aktuellen flachen Clustering-Modellen.