Robuste lexikalische Merkmale für verbesserte Named-Entity-Erkennung durch neuronale Netze

Neuronale Netzansätze zur Named-Entity-Erkennung verringern die Notwendigkeit sorgfältig manuell gestalteter Merkmale. Obwohl einige Merkmale in den modernsten Systemen weiterhin verwendet werden, wurden lexikalische Merkmale größtenteils verworfen, mit Ausnahme von Gazetteern. In dieser Arbeit zeigen wir, dass dies ungerecht ist: Lexikalische Merkmale sind tatsächlich sehr nützlich. Wir schlagen vor, Wörter und Entitätstypen in einen niedrigdimensionalen Vektorraum zu integrieren, den wir anhand annotierter Daten trainieren, die durch distante Überwachung dank Wikipedia erzeugt wurden. Daraus berechnen wir – offline – einen Merkmalsvektor, der jedes Wort repräsentiert. Wenn dieser Repräsentation in einem einfachen rekurrenten neuronalen Netzmodell eingesetzt wird, führt sie zu erheblichen Verbesserungen. Wir erreichen einen neuen Stand der Technik mit einem F1-Wert von 87,95 auf ONTONOTES 5.0 und entsprechen dem aktuellen Stand der Technik mit einem F1-Wert von 91,73 auf dem oft untersuchten CONLL-2003-Datensatz.