Benennungserkennung als Abhängigkeitsparsen

Die Erkennung benannter Entitäten (Named Entity Recognition, NER) ist eine grundlegende Aufgabe im Bereich der natürlichen Sprachverarbeitung und befasst sich mit der Identifizierung von Textabschnitten, die auf Entitäten verweisen. Die NER-Forschung konzentriert sich häufig ausschließlich auf flache Entitäten (flat NER), wobei die Tatsache vernachlässigt wird, dass Entitätsreferenzen auch verschachtelt sein können, wie beispielsweise in [Bank of [China]] (Finkel und Manning, 2009). In diesem Artikel nutzen wir Ansätze aus der graphbasierten Abhängigkeitsanalyse, um unserem Modell über ein biaffines Modell (Dozat und Manning, 2017) eine globale Perspektive auf die Eingabedaten zu vermitteln. Das biaffine Modell bewertet Paare aus Start- und End-Token in einem Satz, wodurch alle möglichen Textabschnitte untersucht werden können, sodass das Modell benannte Entitäten präzise vorhersagen kann. Wir zeigen, dass das Modell sowohl für verschachtelte als auch für flache NER gut funktioniert, wie die Evaluierung an acht Korpora belegt, bei der es auf allen Datensätzen Spitzenleistung (SoTA) erzielt und dabei Genauigkeitsgewinne von bis zu 2,2 Prozentpunkten erreicht.