End-to-End Deep Reinforcement Learning-basierte Coreferenzauflösung

Neuere neuronale Netzwerkmodelle haben die Aufgabe der Kernreferenzauflösung erheblich vorangebracht. Allerdings werden aktuelle neuronale Kernreferenzmodelle üblicherweise mit heuristischen Verlustfunktionen trainiert, die über eine Folge lokaler Entscheidungen berechnet werden. In diesem Artikel stellen wir ein end-to-end-Modell zur Kernreferenzauflösung basierend auf Verstärkendem Lernen vor, das direkt Kernreferenzbewertungsmetriken optimiert. Konkret modifizieren wir den Stand der Technik im Bereich der höherstufigen Erwähnungsranking-Methode aus Lee et al. (2018) zu einem modellbasierten Policy-Gradient-Verfahren, indem wir eine Belohnung einbeziehen, die mit einer Folge von Kernreferenz-Verknüpfungsaktionen assoziiert ist. Darüber hinaus führen wir eine Maximum-Entropy-Regularisierung zur ausreichenden Exploration ein, um zu verhindern, dass das Modell zu früh in ein schlechtes lokales Optimum konvergiert. Unser vorgeschlagenes Modell erreicht eine neue State-of-the-Art-Leistung auf der englischen OntoNotes v5.0-Benchmark-Datenbank.