HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Ein Selbst-Training-Ansatz für die Clustering von Kurztexten

{Chris Develder Thomas Demeester Lucas Sterckx Amir Hadifar}

Ein Selbst-Training-Ansatz für die Clustering von Kurztexten

Abstract

Kurztext-Clustering stellt eine herausfordernde Aufgabe dar, wenn traditionelle Bag-of-Words- oder TF-IDF-Repräsentationen eingesetzt werden, da diese zu spärlichen Vektorrepräsentationen kurzer Texte führen. Niedrigdimensionale kontinuierliche Darstellungen oder Embeddings können dieser Spärlichkeit entgegenwirken: Ihre hohe Repräsentationskraft wird in tiefen Clustering-Algorithmen genutzt. Während tiefes Clustering in der Computer Vision umfassend untersucht wurde, konzentrierte sich bisher vergleichsweise wenig Forschung auf die Naturalsprachverarbeitung (NLP). Das von uns vorgestellte Verfahren lernt diskriminative Merkmale sowohl aus einem Autoencoder als auch aus einer Satz-Embedding-Repräsentation und nutzt die Zuweisungen eines Clustering-Algorithmus als Supervision, um die Gewichte des Encoder-Netzwerks zu aktualisieren. Experimente an drei Datensätzen kurzer Texte bestätigen empirisch die Wirksamkeit unseres Ansatzes.

Benchmarks

BenchmarkMethodikMetriken
short-text-clustering-on-searchsnippetsSIF + Aut., Self-Train.
Acc: 77.1

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein Selbst-Training-Ansatz für die Clustering von Kurztexten | Forschungsarbeiten | HyperAI