HyperAIHyperAI

Command Palette

Search for a command to run...

Vektor der lokal aggregierten Wort-Einbettungen (VLAWE): Eine neue Dokumentdarstellung auf Dokumentebene

Radu Tudor Ionescu Andrei M. Butnaru

Zusammenfassung

In dieser Arbeit schlagen wir eine neue Darstellung für Textdokumente vor, die auf der Aggregation von Wort-Einbettungsvektoren zu Dokumenteneinbettungen basiert. Unser Ansatz ist inspiriert durch den Vektor lokal aggregierter Deskriptoren (Vector of Locally-Aggregated Descriptors), der für die Bildrepräsentation verwendet wird, und funktioniert wie folgt: Zunächst werden die aus einer Sammlung von Dokumenten gewonnenen Wort-Einbettungen mittels k-Means-Clustering gruppiert, um ein Wörterbuch semantisch verwandter Wort-Einbettungen zu erlernen. Jede Wort-Einbettung wird dann ihrem nächstgelegenen Clusterzentroid (Codewort) zugeordnet. Die Darstellung des Vektors lokal aggregierter Wort-Einbettungen (VLAWE) eines Dokuments wird berechnet, indem die Differenzen zwischen jedem Codewort-Vektor und jedem dem entsprechenden Codewort zugeordneten Wort-Vektor (aus dem Dokument) aufsummiert werden. Wir integrieren die VLAWE-Darstellung, die auf unsupervisierte Weise gelernt wurde, in einen Klassifikator und zeigen, dass sie für eine Vielzahl von Textklassifizierungsaufgaben nützlich ist. Wir vergleichen unseren Ansatz mit einem breiten Spektrum neuerer Stand-der-Technik-Methoden und demonstrieren die Effektivität unseres Ansatzes. Darüber hinaus erzielen wir eine erhebliche Verbesserung am Moviereview-Datensatz und melden eine Genauigkeit von 93,3 %, was einen absoluten Gewinn von 10 % gegenüber dem Stand-der-Technik-Ansatz darstellt. Unser Code ist unter https://github.com/raduionescu/vlawe-boswe/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp