Command Palette
Search for a command to run...
Ein Selbst-Training-Ansatz für die Clustering von Kurztexten
Ein Selbst-Training-Ansatz für die Clustering von Kurztexten
Chris Develder Thomas Demeester Lucas Sterckx Amir Hadifar
Zusammenfassung
Kurztext-Clustering stellt eine herausfordernde Aufgabe dar, wenn traditionelle Bag-of-Words- oder TF-IDF-Repräsentationen eingesetzt werden, da diese zu spärlichen Vektorrepräsentationen kurzer Texte führen. Niedrigdimensionale kontinuierliche Darstellungen oder Embeddings können dieser Spärlichkeit entgegenwirken: Ihre hohe Repräsentationskraft wird in tiefen Clustering-Algorithmen genutzt. Während tiefes Clustering in der Computer Vision umfassend untersucht wurde, konzentrierte sich bisher vergleichsweise wenig Forschung auf die Naturalsprachverarbeitung (NLP). Das von uns vorgestellte Verfahren lernt diskriminative Merkmale sowohl aus einem Autoencoder als auch aus einer Satz-Embedding-Repräsentation und nutzt die Zuweisungen eines Clustering-Algorithmus als Supervision, um die Gewichte des Encoder-Netzwerks zu aktualisieren. Experimente an drei Datensätzen kurzer Texte bestätigen empirisch die Wirksamkeit unseres Ansatzes.