OntoGUM: Evaluierung kontextualisierter SOTA-Coreferenzauflösung auf 12 weiteren Genres

SOTA-Referenzauflösung erzielt auf der OntoNotes-Benchmark stetig beeindruckende Ergebnisse. Allerdings erschwert der Mangel an vergleichbaren Daten, die nach derselben Struktur für weitere Genres vorliegen, die Bewertung der Generalisierbarkeit auf offene Domänen. In diesem Artikel präsentieren wir eine Datensammlung und eine umfassende Evaluation, die zeigen, dass die neuesten neuronalen Sprachmodell-basierten End-to-End-Systeme außerhalb der Trainingsdomäne erheblich abfallen. Wir stellen öffentlich eine OntoNotes-ähnliche Referenzauflösungsdatenbank namens OntoGUM bereit, die aus GUM, einem englischen Korpus mit 12 Genres, mittels deterministischer Regeln konvertiert wurde, und die wir evaluiert haben. Dank der reichhaltigen syntaktischen und diskursiven Annotationen in GUM können wir die größte menschlich annotierte Referenzauflösungsdatenbank erstellen, die den OntoNotes-Richtlinien folgt, und die erste, die auf ihre Konsistenz mit dem OntoNotes-Schema evaluiert wurde. Die Evaluation außerhalb der Domäne über 12 Genres zeigt für sowohl deterministische als auch tief lernende Systeme eine Abnahme um fast 15–20 %, was auf eine mangelnde Generalisierbarkeit oder eine versteckte Überanpassung in den bestehenden Referenzauflösungsmodellen hindeutet.