HyperAIHyperAI
vor 11 Tagen

Verbesserung der Dokumentklassifikation mit Mehrsinn-Embeddings

Vivek Gupta, Ankit Saw, Pegah Nokhiz, Harshit Gupta, Partha Talukdar
Verbesserung der Dokumentklassifikation mit Mehrsinn-Embeddings
Abstract

Die effiziente Darstellung von Textdokumenten ist ein zentrales Bauteil vieler Aufgaben im Bereich des Natural Language Processing (NLP). Untersuchungen zur Klassifikation langer Texte haben gezeigt, dass die einfache gewichtete Durchschnittsbildung von Wortvektoren zur Satzrepräsentation oft leistungsfähiger ist als komplexere neuronale Modelle. Kürzlich vorgeschlagen wurde der Sparse Composite Document Vector (SCDV) (Mekala et al., 2017), der diesen Ansatz von Sätzen auf Dokumente erweitert, indem er weiche Clustering-Techniken auf Wortvektoren anwendet. Allerdings berücksichtigt SCDV die mehrdeutige Natur von Wörtern nicht und leidet zudem unter dem „Fluch der hohen Dimensionalität“. In dieser Arbeit beheben wir diese Mängel und stellen SCDV-MS vor. SCDV-MS nutzt mehrdeutige Wortembeddings und lernt eine niedrigdimensionale Mannigfaltigkeit. Durch umfangreiche Experimente auf mehreren realen Datensätzen zeigen wir, dass SCDV-MS-Embeddings gegenüber vorherigen State-of-the-Art-Embeddings bei Aufgaben der mehrklassigen und mehrlabelbasierten Textkategorisierung überlegen sind. Zudem sind SCDV-MS-Embeddings im Hinblick auf Zeit- und Speicherkomplexität bei textbasierten Klassifikationsaufgaben effizienter als SCDV.

Verbesserung der Dokumentklassifikation mit Mehrsinn-Embeddings | Neueste Forschungsarbeiten | HyperAI