HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung der Dokumentklassifikation mit Mehrsinn-Embeddings

Vivek Gupta Ankit Saw Pegah Nokhiz Harshit Gupta Partha Talukdar

Zusammenfassung

Die effiziente Darstellung von Textdokumenten ist ein zentrales Bauteil vieler Aufgaben im Bereich des Natural Language Processing (NLP). Untersuchungen zur Klassifikation langer Texte haben gezeigt, dass die einfache gewichtete Durchschnittsbildung von Wortvektoren zur Satzrepräsentation oft leistungsfähiger ist als komplexere neuronale Modelle. Kürzlich vorgeschlagen wurde der Sparse Composite Document Vector (SCDV) (Mekala et al., 2017), der diesen Ansatz von Sätzen auf Dokumente erweitert, indem er weiche Clustering-Techniken auf Wortvektoren anwendet. Allerdings berücksichtigt SCDV die mehrdeutige Natur von Wörtern nicht und leidet zudem unter dem „Fluch der hohen Dimensionalität“. In dieser Arbeit beheben wir diese Mängel und stellen SCDV-MS vor. SCDV-MS nutzt mehrdeutige Wortembeddings und lernt eine niedrigdimensionale Mannigfaltigkeit. Durch umfangreiche Experimente auf mehreren realen Datensätzen zeigen wir, dass SCDV-MS-Embeddings gegenüber vorherigen State-of-the-Art-Embeddings bei Aufgaben der mehrklassigen und mehrlabelbasierten Textkategorisierung überlegen sind. Zudem sind SCDV-MS-Embeddings im Hinblick auf Zeit- und Speicherkomplexität bei textbasierten Klassifikationsaufgaben effizienter als SCDV.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verbesserung der Dokumentklassifikation mit Mehrsinn-Embeddings | Paper | HyperAI