Doc2EDAG : Un cadre de bout en bout pour l’extraction d’événements financiers à partir de documents chinois

La plupart des méthodes d'extraction d'événements (EE) existantes se limitent à l'extraction des arguments d'événements au sein de la portée de la phrase. Cependant, ces méthodes d'EE au niveau de la phrase peinent à traiter les quantités croissantes de documents issus de nouvelles applications, telles que la finance, la législation et la santé, où les arguments d'événements sont souvent dispersés dans différentes phrases, et où il est fréquent que plusieurs mentions d'événements coexistent dans le même document. Pour relever ces défis, nous proposons un nouveau modèle end-to-end, Doc2EDAG, capable de générer un graphe dirigé acyclique basé sur les entités afin d'effectuer efficacement l'extraction d'événements au niveau du document (DEE). De plus, nous reformulons une tâche DEE en adoptant une conception sans mots déclencheurs pour faciliter l'étiquetage des événements au niveau du document. Afin de démontrer l'efficacité de Doc2EDAG, nous avons construit un jeu de données à grande échelle issu du monde réel, composé d'annonces financières chinoises présentant les défis mentionnés ci-dessus. Des expériences approfondies accompagnées d'analyses exhaustives illustrent la supériorité de Doc2EDAG par rapport aux méthodes les plus avancées actuellement disponibles. Les données et le code source sont disponibles à l'adresse suivante : https://github.com/dolphin-zs/Doc2EDAG.