Textklassifizierung verbessert durch die Integration von bidirektionalen LSTMs mit zweidimensionalem Max-Pooling

Recurrent Neural Networks (RNN) sind eine der am häufigsten verwendeten Architekturen in der Natürlichen Sprachverarbeitung (NLP), da ihre rekurrente Struktur sehr geeignet ist, um Texte variabler Länge zu verarbeiten. RNN können verteilte Repräsentationen von Wörtern nutzen, indem sie zunächst die Token, die jeden Text bilden, in Vektoren konvertieren, die eine Matrix bilden. Diese Matrix hat zwei Dimensionen: die Zeitdimension und die Merkmalsvektor-Dimension. Die meisten existierenden Modelle verwenden in der Regel entweder eine eindimensionale (1D) Max-Pooling-Operation oder eine aufmerksamkeitsbasierte Operation nur auf der Zeitdimension, um einen festen Vektor zu erhalten. Allerdings sind die Merkmale auf der Merkmalsvektor-Dimension nicht voneinander unabhängig, und das einfache Anwenden einer 1D-Pooling-Operation unabhängig von der Zeitdimension kann die Struktur der Merkmalsrepräsentation zerstören. Andererseits kann das Anwenden einer zweidimensionalen (2D) Pooling-Operation auf beiden Dimensionen möglicherweise bedeutendere Merkmale für Sequenzmodellierungsaufgaben auswählen. Um die Merkmale in beiden Dimensionen der Matrix zu integrieren, untersucht dieser Artikel das Anwenden einer 2D-Max-Pooling-Operation, um eine feste Repräsentation des Textes zu erhalten. Der Artikel nutzt auch 2D-Faltung, um mehr bedeutende Informationen der Matrix auszuwählen. Experimente wurden an sechs Textklassifizierungsaufgaben durchgeführt, darunter Sentimentanalyse, Frageklassifizierung, Subjektivitätsklassifizierung und Newsgroup-Klassifizierung. Im Vergleich zu den besten bisherigen Modellen erzielen die vorgeschlagenen Modelle ausgezeichnete Ergebnisse bei vier von sechs Aufgaben. Insbesondere erreicht eines der vorgeschlagenen Modelle die höchste Genauigkeit bei den binären und feinkörnigen Klassifizierungsaufgaben des Stanford Sentiment Treebanks.