Einheitliche Erkennung benannter Entitäten als Wort-Wort-Beziehungs-Klassifizierung

Bisher war die Named-Entity-Erkennung (NER) mit drei Haupttypen beschäftigt, einschließlich flacher, überlappender (auch als verschachtelte bezeichnet) und diskontinuierlicher NER, die größtenteils einzeln untersucht wurden. Kürzlich hat sich ein wachsendes Interesse an der vereinheitlichten NER entwickelt, die die obigen drei Aufgaben gleichzeitig mit einem einzelnen Modell bewältigt. Die aktuell besten Methoden umfassen hauptsächlich span-basierte und sequenz-zu-sequenz-Modelle, wobei leider erstere sich nur auf die Grenzerkennung konzentrieren und letztere unter Expositionsverzerrung leiden können. In dieser Arbeit stellen wir eine neuartige Alternative vor, indem wir die vereinheitlichte NER als Wort-Wort-Beziehungs-Klassifizierung modellieren, nämlich W^2NER. Die Architektur löst den Kernengpass der vereinheitlichten NER, indem sie die Nachbarschaftsbeziehungen zwischen Entitätswörtern effektiv mit Next-Neighboring-Word (NNW) und Tail-Head-Word- (THW-) Beziehungen modelliert. Basierend auf dem W^2NER-Schema entwickeln wir ein neuronales Framework, in dem die vereinheitlichte NER als 2D-Gitter von Wortpaaren modelliert wird. Wir schlagen dann mehrgranulare 2D-Faltungen für eine bessere Verfeinerung der Gitterrepräsentationen vor. Schließlich wird ein Co-Predictor verwendet, um die Wort-Wort-Beziehungen ausreichend zu begründen. Wir führen umfangreiche Experimente auf 14 weit verbreiteten Benchmark-Datensätzen für flache, überlappende und diskontinuierliche NER durch (8 englische und 6 chinesische Datensätze), bei denen unser Modell alle aktuellen Top-Baselines übertrifft und den Stand der Technik in der vereinheitlichten NER weiter vorantreibt.