Fusion und Kennzeichnung: Eine neue neuronale Netzwerkarchitektur für verschachteltes NER

Die Named-Entity-Erkennung (NER) ist eine der am besten untersuchten Aufgaben im Bereich der natürlichen Sprachverarbeitung. Dennoch sind die meisten Ansätze nicht in der Lage, verschachtelte Strukturen zu verarbeiten, die in vielen Anwendungen häufig vorkommen. In dieser Arbeit stellen wir eine neuartige neuronale Netzwerkarchitektur vor, die zunächst Token und/oder Entitäten zu Entitäten zusammenführt, die verschachtelte Strukturen bilden, und diese dann unabhängig voneinander kennzeichnet. Im Gegensatz zu früheren Arbeiten prognostiziert unser Merge-and-Label-Ansatz reelle Werte anstelle diskreter Segmentierungsstrukturen, was es ermöglicht, Wort- und verschachtelte Entitätsembeddings zu kombinieren, während die Differenzierbarkeit gewahrt bleibt. %was es ermöglicht, Entitäten auf mehreren Ebenen glatt in einzelne Vektoren zu gruppieren. Wir evaluieren unseren Ansatz am ACE 2005 Korpus, wo er einen Stand-of-the-Art-F1-Wert von 74,6 erreicht, der durch den Einsatz kontextualisierter Embeddings (BERT) auf 82,4 weiter verbessert wird – eine Gesamtverbesserung von fast 8 F1-Punkten gegenüber früheren Ansätzen, die mit denselben Daten trainiert wurden. Zudem vergleichen wir ihn mit BiLSTM-CRFs, dem vorherrschenden Ansatz für flache NER-Strukturen, und zeigen damit, dass seine Fähigkeit zur Vorhersage von verschachtelten Strukturen die Leistung in einfachen Fällen nicht beeinträchtigt.