Supervisiertes und semi-supervisiertes Textkategorisierung mit LSTM für Regionsembeddings

Die One-Hot-CNN (Convolutional Neural Network) hat sich als effektiv für die Textkategorisierung erwiesen (Johnson & Zhang, 2015). Wir betrachten sie als einen besonderen Fall eines allgemeinen Rahmens, der ein lineares Modell gemeinsam mit einem nichtlinearen Merkmalsgenerator aus „Textregionsembedding + Pooling“ trainiert. Innerhalb dieses Rahmens untersuchen wir eine anspruchsvollere Methode zur Regionsembedding unter Verwendung von Long Short-Term Memory (LSTM). LSTM kann Textregionen variabler (und möglicherweise großer) Größen einbetten, während bei einer CNN die Regionengröße fixiert sein muss. Wir streben nach einer effektiven und effizienten Nutzung von LSTM für diesen Zweck in überwachten und schwach überwachten Szenarien. Die besten Ergebnisse wurden durch die Kombination von Regionsembeddings in Form von LSTM und Faltungsschichten, die auf unbeschrifteten Daten trainiert wurden, erzielt. Die Ergebnisse deuten darauf hin, dass bei dieser Aufgabe Embeddings von Textregionen, die komplexe Konzepte vermitteln können, nützlicher sind als Embeddings einzelner Wörter isoliert. Wir berichten von Leistungen, die die bisher besten Ergebnisse auf vier Benchmark-Datensätzen übertreffen.