HyperAI

Abstract

Kurztext-Clustering stellt eine herausfordernde Aufgabe dar, wenn traditionelle Bag-of-Words- oder TF-IDF-Repräsentationen eingesetzt werden, da diese zu spärlichen Vektorrepräsentationen kurzer Texte führen. Niedrigdimensionale kontinuierliche Darstellungen oder Embeddings können dieser Spärlichkeit entgegenwirken: Ihre hohe Repräsentationskraft wird in tiefen Clustering-Algorithmen genutzt. Während tiefes Clustering in der Computer Vision umfassend untersucht wurde, konzentrierte sich bisher vergleichsweise wenig Forschung auf die Naturalsprachverarbeitung (NLP). Das von uns vorgestellte Verfahren lernt diskriminative Merkmale sowohl aus einem Autoencoder als auch aus einer Satz-Embedding-Repräsentation und nutzt die Zuweisungen eines Clustering-Algorithmus als Supervision, um die Gewichte des Encoder-Netzwerks zu aktualisieren. Experimente an drei Datensätzen kurzer Texte bestätigen empirisch die Wirksamkeit unseres Ansatzes.

Benchmarks

Benchmark	Methodik	Metriken
short-text-clustering-on-searchsnippets	SIF + Aut., Self-Train.	Acc: 77.1

Ein Selbst-Training-Ansatz für die Clustering von Kurztexten

{Chris Develder Thomas Demeester Lucas Sterckx Amir Hadifar}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Ein Selbst-Training-Ansatz für die Clustering von Kurztexten

{Chris Develder Thomas Demeester Lucas Sterckx Amir Hadifar}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters