Ein Clustering-Ranking-Modell für die vollständige Anapher-Auflösung

Anaphora-Auflösungssysteme (Coreference), die für den CONLL-2012-Datensatz konzipiert sind, können typischerweise Schlüsselelemente der vollständigen Anaphora-Auflösungsaufgabe nicht bewältigen, wie beispielsweise die Identifikation von Singletons und bestimmter Arten von nicht verweisenden Ausdrücken (z. B. Expletiven), da diese Aspekte in diesem Korpus nicht annotiert sind. Der kürzlich veröffentlichte Datensatz für die CRAC-2018-Shared-Task lässt sich jedoch nun für diesen Zweck nutzen. In diesem Artikel stellen wir eine Architektur vor, die gleichzeitig nicht verweisende Ausdrücke (einschließlich Expletiven, prädikativer Ausdrücke und weiterer Typen) identifiziert und Coreferenzketten, einschließlich Singletons, aufbaut. Unser Cluster-Ranking-System verwendet eine Aufmerksamkeitsmechanik, um die relative Bedeutung der Erwähnungen innerhalb desselben Clusters zu bestimmen. Zusätzliche Klassifizierer werden eingesetzt, um Singletons und nicht verweisende Markierungen zu identifizieren. Unsere Beiträge sind wie folgt: Erstens präsentieren wir die ersten Ergebnisse auf dem CRAC-Datensatz unter Verwendung von System-Erwähnungen; unser Ergebnis liegt 5,8 Prozentpunkte über dem Baseline-System der Shared Task, das Gold-Erwähnungen verwendete. Zweitens zeigen wir, dass die Verfügbarkeit von Singleton-Clustern und nicht verweisenden Ausdrücken zu einer erheblichen Verbesserung der Leistung auf nicht-singleton-Clustern führen kann. Drittens belegen wir, dass unser Modell – obwohl es nicht speziell für den CONLL-Datensatz entworfen wurde – eine Leistung erreicht, die der des State-of-the-Art-Systems von Kantor und Globerson (2019) auf diesem Datensatz entspricht.