Ein einheitlicher generativer Rahmen für verschiedene NER-Unteraufgaben

Die Named Entity Recognition (NER) ist die Aufgabe, in Sätzen Bereiche zu identifizieren, die Entitäten darstellen. Je nachdem, ob die Entitätsbereiche verschachtelt (nested) oder diskontinuierlich (discontinuous) sind, lässt sich die NER-Aufgabe in die Teilsubtasks flache NER, verschachtelte NER und diskontinuierliche NER unterteilen. Diese Teilsubtasks wurden bisher hauptsächlich durch tokenbasierte Sequenzmarkierung oder spanbasierte Klassifikation gelöst. Allerdings sind diese Ansätze nur schwer gleichzeitig für alle drei Arten von NER-Teilsubtasks geeignet. Um dieses Problem zu lösen, schlagen wir vor, die NER-Teilsubtasks als Aufgabe der Generierung einer Entitätsbereichssequenz zu formulieren, die mit einem einheitlichen Sequenz-zu-Sequenz (Seq2Seq)-Framework gelöst werden kann. Auf Basis unseres einheitlichen Rahmens können wir vortrainierte Seq2Seq-Modelle nutzen, um alle drei Arten von NER-Teilsubtasks ohne spezielle Gestaltung der Tagging-Schemata oder aufwändige Methoden zur Enumeration von Spannen zu lösen. Wir nutzen drei verschiedene Arten von Entitätsrepräsentationen, um Entitäten linear in eine Sequenz zu transformieren. Unser vorgeschlagenes Framework ist einfach zu implementieren und erreicht auf acht englischen NER-Datensätzen Zustand der Kunst (SoTA) oder nahezu SoTA-Leistung, darunter zwei flache NER-Datensätze, drei verschachtelte NER-Datensätze und drei diskontinuierliche NER-Datensätze.