Doc2EDAG: Ein End-to-End Dokumentbasiertes Framework für die Extraktion von Finanzereignissen im Chinesischen

Die meisten existierenden Methoden zur Ereignisextraktion (EE) extrahieren Ereignisargumente nur im Satzumfang. Allerdings haben solche satzbasierte EE-Methoden Schwierigkeiten, mit den sich rasant steigernden Dokumentmengen aus aufkommenden Anwendungen wie Finanzen, Gesetzgebung und Gesundheit umzugehen, bei denen Ereignisargumente häufig in verschiedenen Sätzen verstreut sind und sogar mehrere solcher Ereignisnennungen oft in derselben Dokument vorhanden sind. Um diese Herausforderungen zu bewältigen, schlagen wir ein neues End-to-End-Modell vor, das Doc2EDAG genannt wird und in der Lage ist, einen entitätsbasierten gerichteten azyklischen Graphen zu generieren, um die dokumentebene EE (DEE) effektiv durchzuführen. Darüber hinaus reformulieren wir eine DEE-Aufgabe unter Verwendung des no-trigger-words Designs, um die dokumentebene Ereignisannotierung zu erleichtern. Um die Effektivität von Doc2EDAG zu demonstrieren, haben wir einen groß angelegten Datensatz realer Weltbeispiele erstellt, der chinesische Finanzmitteilungen enthält, die die oben genannten Herausforderungen aufweisen. Ausführliche Experimente mit umfassender Analyse zeigen die Überlegenheit von Doc2EDAG gegenüber den bislang besten Methoden. Daten und Code können unter https://github.com/dolphin-zs/Doc2EDAG abgerufen werden.