vor 2 Monaten

Gemeinsame Einbettung von Wörtern und Labels für die Textklassifizierung

Guoyin Wang; Chunyuan Li; Wenlin Wang; Yizhe Zhang; Dinghan Shen; Xinyuan Zhang; Ricardo Henao; Lawrence Carin

Abstract

Wort-Einbettungen (word embeddings) sind effektive Zwischendarstellungen zur Erfassung semantischer Regularitäten zwischen Wörtern beim Lernen von Textsequenz-Darstellungen. Wir schlagen vor, Textkategorisierung als ein Problem der gemeinsamen Einbettung von Labels und Wörtern zu betrachten: Jedes Label wird im gleichen Raum wie die Wortvektoren eingebettet. Wir führen einen Aufmerksamkeitsrahmen (attention framework) ein, der die Kompatibilität der Einbettungen zwischen Textsequenzen und Labels misst. Die Aufmerksamkeit wird auf einem Trainingsdatensatz mit etikettierten Stichproben gelernt, um sicherzustellen, dass bei einer gegebenen Textsequenz relevante Wörter höher gewichtet werden als irrelevante. Unsere Methode behält die Interpretierbarkeit von Wort-Einbettungen bei und verfügt über eine eingebaute Fähigkeit, alternative Informationsquellen neben den Eingabetextsequenzen zu nutzen. Ausführliche Ergebnisse auf mehreren großen Textdatensätzen zeigen, dass das vorgeschlagene Framework sowohl in Bezug auf Genauigkeit als auch auf Geschwindigkeit erheblich besser abschneidet als die bislang besten Methoden.