Tiefes Clustering mit Maßfortpflanzung

Tiefe Modelle haben den Stand der Technik sowohl im überwachten als auch im unüberwachten Lernen verbessert. Zum Beispiel hat die tiefe eingebettete Clusterverfahren (DEC) durch die Verwendung gestapelter Autoencoder für die Darstellungslernung das unüberwachte Clusterverhalten erheblich verbessert. Ein Nachteil des tiefen Modellierens ist jedoch, dass die lokale Nachbarschaftsstruktur im ursprünglichen Raum nicht zwangsläufig im latente Raum erhalten bleibt. Um die lokale Geometrie zu bewahren, wurden in der Literatur zum überwachten und semiautomatischen Lernen verschiedene Methoden vorgeschlagen, wie z.B. spektrale Clusterverfahren und Label-Propagation, die auf Graph-Laplace-Regularisierung basieren. In dieser Arbeit kombinieren wir die Stärken des tiefen Darstellungslernens mit der Maßfortpflanzung (MP), einer auf KL-Divergenz basierenden Graph-Regularisierungsmethode, die ursprünglich in semiautomatischen Szenarien verwendet wurde. Die Hauptannahme von MP ist, dass wenn zwei Datenpunkte im ursprünglichen Raum nahe beieinander liegen, sie wahrscheinlich zur gleichen Klasse gehören, gemessen anhand der KL-Divergenz der Klassenmitgliedschaftsverteilung. Indem wir diese Annahme auch im unüberwachten Lernszenario treffen, schlagen wir unser Modell für tiefe eingebettete Clusterverfahren unterstützt durch Maßfortpflanzung (DECAMP) vor. Wir evaluieren DECAMP anhand von Aufgaben zur Kurztextclustering. Auf drei öffentlichen Datensätzen erreicht DECAMP wettbewerbsfähige Ergebnisse gegenüber anderen Stand-der-Technik-Baselines, einschließlich Baselines, die zusätzliche Daten verwenden, um Worteinbettungen zu generieren, die im Clusteringprozess eingesetzt werden. Als Beispiel erreichte DECAMP auf dem Stackoverflow-Datensatz eine Clusterungspräzision von 79 %, was etwa 5 % höher ist als alle existierenden Baselines. Diese empirischen Ergebnisse deuten darauf hin, dass DECAMP eine sehr effektive Methode für unüberwachtes Lernen darstellt.