HyperAIHyperAI
il y a 17 jours

DocOIE : Un ensemble de données contextuel au niveau du document pour l’OpenIE

Kuicai Dong, Yilin Zhao, Aixin Sun, Jung-Jae Kim, Xiaoli Li
DocOIE : Un ensemble de données contextuel au niveau du document pour l’OpenIE
Résumé

L’extraction d’information ouverte (OpenIE) vise à extraire des tuples relationnels structurés (sujet, relation, objet) à partir de phrases et joue un rôle crucial dans de nombreuses applications NLP en aval. Les solutions existantes effectuent l’extraction au niveau de la phrase, sans tenir compte d’informations contextuelles supplémentaires. Or, dans la réalité, une phrase existe généralement au sein d’un document plutôt qu’en isolation ; il est souvent nécessaire d’accéder à des informations contextuelles pertinentes autour de la phrase pour en assurer une interprétation précise. Étant donné l’absence actuelle de jeu de données OpenIE prenant en compte le contexte au niveau du document, nous avons manuellement annoté 800 phrases provenant de 80 documents dans deux domaines (Santé et Transport) afin de constituer un jeu de données DocOIE, destiné à l’évaluation. Par ailleurs, nous proposons DocIE, un nouveau modèle d’OpenIE prenant en compte le contexte au niveau du document. Nos résultats expérimentaux basés sur DocIE démontrent que l’intégration du contexte au niveau du document contribue efficacement à améliorer les performances de l’OpenIE. Le jeu de données DocOIE et le modèle DocIE sont désormais mis à disposition du public.

DocOIE : Un ensemble de données contextuel au niveau du document pour l’OpenIE | Articles de recherche récents | HyperAI