HyperAIHyperAI
il y a 11 jours

DWIE : un ensemble de données centré sur les entités pour l'extraction d'information au niveau du document multi-tâches

Klim Zaporojets, Johannes Deleu, Chris Develder, Thomas Demeester
DWIE : un ensemble de données centré sur les entités pour l'extraction d'information au niveau du document multi-tâches
Résumé

Cet article présente DWIE, le « Deutsche Welle corpus for Information Extraction », un nouveau jeu de données multitâche qui combine quatre tâches principales d'extraction d'information (IE) : (i) la reconnaissance d'entités nommées (NER), (ii) la résolution de coreférences, (iii) l'extraction de relations (RE) et (iv) l'association d'entités. DWIE est conçu comme un corpus centré sur les entités, décrivant les interactions et les propriétés des entités conceptuelles au niveau du document entier. Cette approche se distingue des méthodes actuellement dominantes, qui sont orientées vers les mentions et partent de la détection et de la classification des mentions d'entités nommées dans des phrases isolées. De plus, la construction et l'évaluation des modèles d'IE sur DWIE soulèvent deux défis majeurs. Premièrement, l'utilisation des métriques d'évaluation classiques au niveau des mentions pour les tâches de NER et de RE sur un corpus centré sur les entités peut entraîner des mesures biaisées en faveur des entités mentionnées plus fréquemment. Pour surmonter ce problème, nous proposons une nouvelle métrique orientée entité, prenant en compte le nombre de mentions composant chaque entité prédite et chaque entité de référence. Deuxièmement, les annotations multitâche au niveau du document exigent que les modèles transfèrent efficacement des informations entre des mentions d'entités situées dans différentes parties du document, ainsi qu'entre différentes tâches, dans un cadre d'apprentissage conjoint. Pour y parvenir, nous proposons d'utiliser des techniques de propagation de messages basées sur les graphes entre des segments mentionnels au niveau du document. Nos expériences montrent une amélioration allant jusqu'à 5,5 points de F1 lorsqu'une propagation de messages neuronale par graphe est intégrée à notre modèle conjoint. Cela démontre le potentiel de DWIE à stimuler de futures recherches sur les réseaux de neurones graphiques pour l'apprentissage de représentations dans le cadre de l'IE multitâche. DWIE est mis à disposition publiquement à l'adresse suivante : https://github.com/klimzaporojets/DWIE.

DWIE : un ensemble de données centré sur les entités pour l'extraction d'information au niveau du document multi-tâches | Articles de recherche récents | HyperAI