HyperAIHyperAI

Command Palette

Search for a command to run...

Textklassifikation mit Wortembeddings-Regularisierung und weicher Ähnlichkeitsmaßnahme

Vít Novotný Eniafe Festus Ayetiran Michal Štefánik Petr Sojka

Zusammenfassung

Seit der wegweisenden Arbeit von Mikolov et al. sind Wortembeddings zu den bevorzugten Wortrepräsentationen für zahlreiche Aufgaben im Bereich des natürlichen Sprachverstehens geworden. Dokumentähnlichkeitsmaße, die aus Wortembeddings abgeleitet werden, wie beispielsweise das weiche Kosinusmaß (soft cosine measure, SCM) und der Word Mover’s Distance (WMD), zeigten berichtete Zustandsleistung auf Aufgaben der semantischen Textähnlichkeit und Textklassifikation.Trotz der hervorragenden Leistung des WMD bei der Textklassifikation und der semantischen Textähnlichkeit ist dessen durchschnittliche Zeitkomplexität von über kubisch praktisch unbrauchbar. Das SCM weist eine quadratische Worst-Case-Zeitkomplexität auf, doch bisher wurde seine Leistung bei der Textklassifikation nie mit der des WMD verglichen. Kürzlich wurden zwei Techniken zur Regularisierung von Wortembeddings vorgestellt, die sich als wirksam erwiesen, um Speicher- und Speicherkosten zu reduzieren, die Trainingsgeschwindigkeit sowie die Geschwindigkeit der Dokumentverarbeitung zu steigern und die Aufgabenleistung bei Wortanalogien, Wortähnlichkeit und semantischer Textähnlichkeit zu verbessern. Der Einfluss dieser Techniken auf die Textklassifikation wurde jedoch bisher noch nicht untersucht.In unserer Arbeit untersuchen wir die individuellen und gemeinsamen Effekte dieser beiden Regularisierungstechniken auf die Geschwindigkeit der Dokumentverarbeitung sowie die Aufgabenleistung des SCM und des WMD bei der Textklassifikation. Zur Evaluierung verwenden wir den kkkNN-Klassifikator und sechs Standard-Datensätze: BBCSPORT, TWITTER, OHSUMED, REUTERS-21578, AMAZON und 20NEWS.Wir zeigen eine durchschnittliche Reduktion des kkkNN-Testfehlers um 39 % bei Verwendung regularisierter Wortembeddings im Vergleich zu nicht-regularisierten Embeddings. Wir beschreiben ein praktikables Verfahren zur Ableitung solcher regularisierter Embeddings mittels Cholesky-Faktorisierung. Zudem zeigen wir, dass das SCM mit regularisierten Embeddings die Leistung des WMD bei der Textklassifikation signifikant übertrifft und dabei mehr als 10.000 Mal schneller ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp