Ein Selbst-Training-Ansatz für die Clustering von Kurztexten

Kurztext-Clustering stellt eine herausfordernde Aufgabe dar, wenn traditionelle Bag-of-Words- oder TF-IDF-Repräsentationen eingesetzt werden, da diese zu spärlichen Vektorrepräsentationen kurzer Texte führen. Niedrigdimensionale kontinuierliche Darstellungen oder Embeddings können dieser Spärlichkeit entgegenwirken: Ihre hohe Repräsentationskraft wird in tiefen Clustering-Algorithmen genutzt. Während tiefes Clustering in der Computer Vision umfassend untersucht wurde, konzentrierte sich bisher vergleichsweise wenig Forschung auf die Naturalsprachverarbeitung (NLP). Das von uns vorgestellte Verfahren lernt diskriminative Merkmale sowohl aus einem Autoencoder als auch aus einer Satz-Embedding-Repräsentation und nutzt die Zuweisungen eines Clustering-Algorithmus als Supervision, um die Gewichte des Encoder-Netzwerks zu aktualisieren. Experimente an drei Datensätzen kurzer Texte bestätigen empirisch die Wirksamkeit unseres Ansatzes.