vor 11 Tagen

Textklassifikation mit Wortembeddings-Regularisierung und weicher Ähnlichkeitsmaßnahme

Vít Novotný, Eniafe Festus Ayetiran, Michal Štefánik, Petr Sojka

Abstract

Seit der wegweisenden Arbeit von Mikolov et al. sind Wortembeddings zu den bevorzugten Wortrepräsentationen für zahlreiche Aufgaben im Bereich des natürlichen Sprachverstehens geworden. Dokumentähnlichkeitsmaße, die aus Wortembeddings abgeleitet werden, wie beispielsweise das weiche Kosinusmaß (soft cosine measure, SCM) und der Word Mover’s Distance (WMD), zeigten berichtete Zustandsleistung auf Aufgaben der semantischen Textähnlichkeit und Textklassifikation.Trotz der hervorragenden Leistung des WMD bei der Textklassifikation und der semantischen Textähnlichkeit ist dessen durchschnittliche Zeitkomplexität von über kubisch praktisch unbrauchbar. Das SCM weist eine quadratische Worst-Case-Zeitkomplexität auf, doch bisher wurde seine Leistung bei der Textklassifikation nie mit der des WMD verglichen. Kürzlich wurden zwei Techniken zur Regularisierung von Wortembeddings vorgestellt, die sich als wirksam erwiesen, um Speicher- und Speicherkosten zu reduzieren, die Trainingsgeschwindigkeit sowie die Geschwindigkeit der Dokumentverarbeitung zu steigern und die Aufgabenleistung bei Wortanalogien, Wortähnlichkeit und semantischer Textähnlichkeit zu verbessern. Der Einfluss dieser Techniken auf die Textklassifikation wurde jedoch bisher noch nicht untersucht.In unserer Arbeit untersuchen wir die individuellen und gemeinsamen Effekte dieser beiden Regularisierungstechniken auf die Geschwindigkeit der Dokumentverarbeitung sowie die Aufgabenleistung des SCM und des WMD bei der Textklassifikation. Zur Evaluierung verwenden wir den $k$NN-Klassifikator und sechs Standard-Datensätze: BBCSPORT, TWITTER, OHSUMED, REUTERS-21578, AMAZON und 20NEWS.Wir zeigen eine durchschnittliche Reduktion des $k$NN-Testfehlers um 39 % bei Verwendung regularisierter Wortembeddings im Vergleich zu nicht-regularisierten Embeddings. Wir beschreiben ein praktikables Verfahren zur Ableitung solcher regularisierter Embeddings mittels Cholesky-Faktorisierung. Zudem zeigen wir, dass das SCM mit regularisierten Embeddings die Leistung des WMD bei der Textklassifikation signifikant übertrifft und dabei mehr als 10.000 Mal schneller ist.