Bidirektionale LSTM-CRF-Modelle für Sequenztagging

In dieser Arbeit schlagen wir eine Reihe von Modellen vor, die auf Long Short-Term Memory (LSTM)-Netzwerken basieren und für Sequenztagging eingesetzt werden können. Diese Modelle umfassen LSTM-Netzwerke, bidirektionale LSTM-Netzwerke (BI-LSTM), LSTM-Netzwerke mit einer Schicht des bedingten Markowmodells (Conditional Random Field, CRF) (LSTM-CRF) sowie bidirektionale LSTM-Netzwerke mit einer CRF-Schicht (BI-LSTM-CRF). Unsere Arbeit ist die erste, die ein bidirektionales LSTM-CRF-Modell auf Standard-Datensätzen für Sequenztagging in der Natürlichen Sprachverarbeitung (NLP) anwendet. Wir zeigen, dass das BI-LSTM-CRF-Modell dank der bidirektionalen LSTM-Komponente effizient sowohl vergangene als auch zukünftige Eingabecharakteristiken nutzen kann. Zudem kann es dank der CRF-Schicht Satzniveau-Taginformationen verwenden. Das BI-LSTM-CRF-Modell erzielt Stand-des-Wissens-Akkuraten oder nahe daran liegende Ergebnisse auf Datensätzen für Part-of-Speech-Taggung (POS), Chunktrennung und Named Entity Recognition (NER). Darüber hinaus ist es robust und zeigt eine geringere Abhängigkeit von Wort-Vektoren im Vergleich zu früheren Beobachtungen.