Locate and Label: Ein zweistufiger Identifikator für verschachtelte benannte Entitätserkennung

Die Erkennung benannter Entitäten (Named Entity Recognition, NER) ist eine gut untersuchte Aufgabe im Bereich der natürlichen Sprachverarbeitung. Traditionelle NER-Ansätze berücksichtigen ausschließlich flache Entitäten und ignorieren geschachtelte Entitäten. Span-basierte Methoden behandeln die Entitäten-Erkennung als Spann-Klassifikationsaufgabe. Obwohl diese Ansätze inhärent die Fähigkeit besitzen, geschachtelte NER zu verarbeiten, leiden sie unter hohem Rechenaufwand, Vernachlässigung von Grenzinformationen, einer ungenügenden Ausnutzung von Spannen, die nur teilweise mit Entitäten übereinstimmen, sowie Schwierigkeiten bei der Erkennung langer Entitäten. Um diese Probleme anzugehen, schlagen wir einen zweistufigen Entitäten-Identifikator vor. Zunächst generieren wir Spann-Vorschläge durch Filterung und Grenzregression anhand von Ausgangsspannen, um die Entitäten zu lokalisieren, und bewerten anschließend die durch Grenzadjustierung verbesserten Spann-Vorschläge mit den entsprechenden Kategorien. Unsere Methode nutzt während des Trainings effizient sowohl die Grenzinformationen von Entitäten als auch die teilweise übereinstimmenden Spannen. Durch die Grenzregression kann theoretisch jede beliebige Entitätenlänge abgedeckt werden, was die Fähigkeit zur Erkennung langer Entitäten verbessert. Zudem werden in der ersten Stufe viele geringwertige Ausgangsspannen eliminiert, was die Zeitkomplexität der Inferenz reduziert. Experimente auf Datensätzen für geschachtelte NER zeigen, dass unser vorgeschlagener Ansatz die Leistung vorheriger State-of-the-Art-Modelle übertrifft.