Selbstgelehrte Faltungsschichtneuronale Netze für die Clusterverteilung kurzer Texte

Die Clustereinteilung kurzer Texte ist aufgrund der Kürze und Sparsamkeit der Textrepräsentation eine herausfordernde Aufgabe. In dieser Arbeit schlagen wir ein flexibles Framework für die Clustereinteilung kurzer Texte vor, das auf einem selbstgelehrten Faltungsneuronalen Netzwerk (Self-Taught Convolutional Neural Network) basiert und als STC² bezeichnet wird. Dieses Framework kann flexibel und erfolgreich nützliche semantische Merkmale integrieren und eine unverzerrte, tiefe Textrepräsentation in einer unüberwachten Weise lernen. In unserem Framework werden die ursprünglichen rohen Textmerkmale zunächst durch eine existierende Methode zur unüberwachten Dimensionsreduktion in kompakte binäre Codes eingebettet. Anschließend werden Wortvektoren (Word Embeddings) untersucht und in Faltungsneuronale Netze eingespeist, um tiefgreifende Merkmalsrepräsentationen zu erlernen. Gleichzeitig werden die Ausgabeeinheiten während des Trainingsprozesses verwendet, um die vorab trainierten binären Codes anzupassen. Schließlich erhalten wir die optimalen Cluster durch die Anwendung von K-Means auf die gelernten Repräsentationen. Umfangreiche experimentelle Ergebnisse zeigen, dass das vorgeschlagene Framework effektiv, flexibel ist und mehrere gängige Clusterverfahren bei Tests mit drei öffentlichen Kurztextdatensätzen übertrifft.