Bidirektionales LSTM für die Erkennung benannter Entitäten in Twitter-Nachrichten

In diesem Beitrag stellen wir unseren Ansatz zur Named Entity Recognition in Twitter-Nachrichten vor, den wir bei unserer Teilnahme am Shared Task „Named Entity Recognition in Twitter“ auf dem COLING 2016 Workshop on Noisy User-generated Text (WNUT) eingesetzt haben. Die zentrale Herausforderung, die wir bei unserer Teilnahme adressieren, ist die kurze, rauschhafte und umgangssprachliche Natur von Tweets, was die Named Entity Recognition in Twitter-Nachrichten zu einer anspruchsvollen Aufgabe macht. Insbesondere untersuchen wir einen Ansatz, um dieser Herausforderung zu begegnen, indem wir bidirektionale Long Short-Term Memory (LSTM)-Netzwerke einsetzen, die orthografische Merkmale automatisch lernen können, ohne dass eine manuelle Merkmalsingenieurarbeit erforderlich ist. Im Vergleich zu anderen Systemen, die am Shared Task teilnahmen, erzielte unser System die besten Ergebnisse sowohl bei der Sub-Aufgabe „Segmentierung und Kategorisierung“ als auch bei der Sub-Aufgabe „nur Segmentierung“.