Gemeinsame Einbettung von Wörtern und Labels für die Textklassifizierung

Wort-Einbettungen (word embeddings) sind effektive Zwischendarstellungen zur Erfassung semantischer Regularitäten zwischen Wörtern beim Lernen von Textsequenz-Darstellungen. Wir schlagen vor, Textkategorisierung als ein Problem der gemeinsamen Einbettung von Labels und Wörtern zu betrachten: Jedes Label wird im gleichen Raum wie die Wortvektoren eingebettet. Wir führen einen Aufmerksamkeitsrahmen (attention framework) ein, der die Kompatibilität der Einbettungen zwischen Textsequenzen und Labels misst. Die Aufmerksamkeit wird auf einem Trainingsdatensatz mit etikettierten Stichproben gelernt, um sicherzustellen, dass bei einer gegebenen Textsequenz relevante Wörter höher gewichtet werden als irrelevante. Unsere Methode behält die Interpretierbarkeit von Wort-Einbettungen bei und verfügt über eine eingebaute Fähigkeit, alternative Informationsquellen neben den Eingabetextsequenzen zu nutzen. Ausführliche Ergebnisse auf mehreren großen Textdatensätzen zeigen, dass das vorgeschlagene Framework sowohl in Bezug auf Genauigkeit als auch auf Geschwindigkeit erheblich besser abschneidet als die bislang besten Methoden.