vor 2 Monaten

Ein peinlich einfacher, aber starker Baseline für die verschachtelte Namensentitätserkennung

Hang Yan; Yu Sun; Xiaonan Li; Xipeng Qiu

Abstract

Die Named-Entity-Erkennung (NER) ist die Aufgabe, Entitätsspannen im Text zu erkennen und zu klassifizieren. Wenn sich Entitätsspannen gegenseitig überlappen, wird dieses Problem als verschachtelte NER bezeichnet. Spannbasierte Methoden werden häufig verwendet, um das Problem der verschachtelten NER anzugehen. Die meisten dieser Methoden erzeugen eine Punktematrix der Größe $n \times n$, wobei $n$ die Länge des Satzes bedeutet und jedes Element einer Spanne entspricht. Allerdings ignorieren bisherige Arbeiten räumliche Beziehungen in der Punktematrix. In dieser Arbeit schlagen wir vor, Faltungsneuronale Netze (Convolutional Neural Networks, CNN) zu verwenden, um diese räumlichen Beziehungen in der Punktematrix zu modellieren. Trotz ihrer Einfachheit zeigen Experimente mit drei gängigen Datensätzen für verschachtelte NER, dass unser Modell mehrere kürzlich vorgeschlagene Methoden bei gleichen vorab trainierten Encodern übertreffen kann. Eine weitere Analyse ergibt, dass die Verwendung von CNNs dem Modell helfen kann, mehr verschachtelte Entitäten zu finden. Darüber hinaus stellten wir fest, dass verschiedene Arbeiten unterschiedliche Satztokenisierungen für die drei Datensätze zur verschachtelten NER verwendet haben, was den Vergleich beeinflusst. Daher veröffentlichen wir ein Preprocessing-Skript, um zukünftige Vergleiche zu erleichtern.