Verschachtelte benannte Entitätserkennung mit teilweise beobachteten TreeCRFs

Die Erkennung benannter Entitäten (Named Entity Recognition, NER) ist eine gut untersuchte Aufgabe im Bereich der natürlichen Sprachverarbeitung. Der weit verbreitete Ansatz basierend auf der Sequenzmarkierung erweist sich jedoch als schwierig, wenn es darum geht, geschachtelte Entitätsstrukturen zu erkennen. In dieser Arbeit betrachten wir die geschachtelte NER als Konstituente-Parsing mit teilweise beobachteten Bäumen und modellieren sie mittels teilweise beobachteter TreeCRFs. Konkret interpretieren wir alle markierten Entitätsintervalle als beobachtete Knoten in einem Konstituente-Baum und alle übrigen Intervalle als latente Knoten. Mit Hilfe der TreeCRF erreichen wir eine einheitliche Methode, um sowohl beobachtete als auch latente Knoten gemeinsam zu modellieren. Um die Wahrscheinlichkeit partieller Bäume unter partieller Marginalisierung zu berechnen, schlagen wir eine Variante des Inside-Algorithmus vor, den \textsc{Masked Inside}-Algorithmus, der unterschiedliche Inferenzoperationen für verschiedene Knoten unterstützt (Bewertung für beobachtete Knoten, Marginalisierung für latente Knoten und Ablehnung für Knoten, die mit den beobachteten nicht kompatibel sind), und verfügt über eine effiziente, parallelisierte Implementierung, wodurch Training und Inferenz erheblich beschleunigt werden. Experimente zeigen, dass unser Ansatz auf den Datensätzen ACE2004 und ACE2005 die derzeit beste (SOTA) F1-Score erreicht und auf dem GENIA-Datensatz vergleichbare Leistung wie SOTA-Modelle erbringt. Die Implementierung unseres Ansatzes ist verfügbar unter: \url{https://github.com/FranxYao/Partially-Observed-TreeCRFs}.