Ein gemeinsames Modell für die Entitätenanalyse: Coreferenz, Typisierung und Verknüpfung

Wir präsentieren ein gemeinsames Modell für drei zentrale Aufgaben im Entity-Analyse-Stack: die Coreferenzauflösung (innerdokumentale Clustering), die Benannte-Entität-Erkennung (grobe semantische Typisierung) und die Entity-Linking-Aufgabe (Zuordnung zu Wikipedia-Entitäten). Unser Modell ist formell ein strukturierter bedingter Zufallsfeld (structured conditional random field). Ein- und zweistellige Faktoren kodieren lokale Merkmale aus starken Baseline-Modellen für jede einzelne Aufgabe. Anschließend fügen wir binäre und ternäre Faktoren hinzu, um Wechselwirkungen zwischen den Aufgaben zu erfassen, beispielsweise die Einschränkung, dass coreferente Erwähnungen denselben semantischen Typ aufweisen müssen. Auf den ACE 2005- und OntoNotes-Datensätzen erreichen wir state-of-the-art-Ergebnisse für alle drei Aufgaben. Zudem verbessert das gemeinsame Modell die Leistung jeder einzelnen Aufgabe gegenüber starken unabhängigen Baselines.