HyperAIHyperAI
vor 11 Tagen

Ein Selbst-Training-Ansatz für die Clustering von Kurztexten

{Chris Develder, Thomas Demeester, Lucas Sterckx, Amir Hadifar}
Ein Selbst-Training-Ansatz für die Clustering von Kurztexten
Abstract

Kurztext-Clustering stellt eine herausfordernde Aufgabe dar, wenn traditionelle Bag-of-Words- oder TF-IDF-Repräsentationen eingesetzt werden, da diese zu spärlichen Vektorrepräsentationen kurzer Texte führen. Niedrigdimensionale kontinuierliche Darstellungen oder Embeddings können dieser Spärlichkeit entgegenwirken: Ihre hohe Repräsentationskraft wird in tiefen Clustering-Algorithmen genutzt. Während tiefes Clustering in der Computer Vision umfassend untersucht wurde, konzentrierte sich bisher vergleichsweise wenig Forschung auf die Naturalsprachverarbeitung (NLP). Das von uns vorgestellte Verfahren lernt diskriminative Merkmale sowohl aus einem Autoencoder als auch aus einer Satz-Embedding-Repräsentation und nutzt die Zuweisungen eines Clustering-Algorithmus als Supervision, um die Gewichte des Encoder-Netzwerks zu aktualisieren. Experimente an drei Datensätzen kurzer Texte bestätigen empirisch die Wirksamkeit unseres Ansatzes.

Ein Selbst-Training-Ansatz für die Clustering von Kurztexten | Neueste Forschungsarbeiten | HyperAI