HyperAIHyperAI
vor 2 Monaten

Vektor der lokal aggregierten Wort-Einbettungen (VLAWE): Eine neue Dokumentdarstellung auf Dokumentebene

Radu Tudor Ionescu; Andrei M. Butnaru
Vektor der lokal aggregierten Wort-Einbettungen (VLAWE): Eine neue Dokumentdarstellung auf Dokumentebene
Abstract

In dieser Arbeit schlagen wir eine neue Darstellung für Textdokumente vor, die auf der Aggregation von Wort-Einbettungsvektoren zu Dokumenteneinbettungen basiert. Unser Ansatz ist inspiriert durch den Vektor lokal aggregierter Deskriptoren (Vector of Locally-Aggregated Descriptors), der für die Bildrepräsentation verwendet wird, und funktioniert wie folgt: Zunächst werden die aus einer Sammlung von Dokumenten gewonnenen Wort-Einbettungen mittels k-Means-Clustering gruppiert, um ein Wörterbuch semantisch verwandter Wort-Einbettungen zu erlernen. Jede Wort-Einbettung wird dann ihrem nächstgelegenen Clusterzentroid (Codewort) zugeordnet. Die Darstellung des Vektors lokal aggregierter Wort-Einbettungen (VLAWE) eines Dokuments wird berechnet, indem die Differenzen zwischen jedem Codewort-Vektor und jedem dem entsprechenden Codewort zugeordneten Wort-Vektor (aus dem Dokument) aufsummiert werden. Wir integrieren die VLAWE-Darstellung, die auf unsupervisierte Weise gelernt wurde, in einen Klassifikator und zeigen, dass sie für eine Vielzahl von Textklassifizierungsaufgaben nützlich ist. Wir vergleichen unseren Ansatz mit einem breiten Spektrum neuerer Stand-der-Technik-Methoden und demonstrieren die Effektivität unseres Ansatzes. Darüber hinaus erzielen wir eine erhebliche Verbesserung am Moviereview-Datensatz und melden eine Genauigkeit von 93,3 %, was einen absoluten Gewinn von 10 % gegenüber dem Stand-der-Technik-Ansatz darstellt. Unser Code ist unter https://github.com/raduionescu/vlawe-boswe/ verfügbar.

Vektor der lokal aggregierten Wort-Einbettungen (VLAWE): Eine neue Dokumentdarstellung auf Dokumentebene | Neueste Forschungsarbeiten | HyperAI