HyperAIHyperAI

Command Palette

Search for a command to run...

DWIE : un ensemble de données centré sur les entités pour l'extraction d'information au niveau du document multi-tâches

Klim Zaporojets Johannes Deleu Chris Develder Thomas Demeester

Résumé

Cet article présente DWIE, le « Deutsche Welle corpus for Information Extraction », un nouveau jeu de données multitâche qui combine quatre tâches principales d'extraction d'information (IE) : (i) la reconnaissance d'entités nommées (NER), (ii) la résolution de coreférences, (iii) l'extraction de relations (RE) et (iv) l'association d'entités. DWIE est conçu comme un corpus centré sur les entités, décrivant les interactions et les propriétés des entités conceptuelles au niveau du document entier. Cette approche se distingue des méthodes actuellement dominantes, qui sont orientées vers les mentions et partent de la détection et de la classification des mentions d'entités nommées dans des phrases isolées. De plus, la construction et l'évaluation des modèles d'IE sur DWIE soulèvent deux défis majeurs. Premièrement, l'utilisation des métriques d'évaluation classiques au niveau des mentions pour les tâches de NER et de RE sur un corpus centré sur les entités peut entraîner des mesures biaisées en faveur des entités mentionnées plus fréquemment. Pour surmonter ce problème, nous proposons une nouvelle métrique orientée entité, prenant en compte le nombre de mentions composant chaque entité prédite et chaque entité de référence. Deuxièmement, les annotations multitâche au niveau du document exigent que les modèles transfèrent efficacement des informations entre des mentions d'entités situées dans différentes parties du document, ainsi qu'entre différentes tâches, dans un cadre d'apprentissage conjoint. Pour y parvenir, nous proposons d'utiliser des techniques de propagation de messages basées sur les graphes entre des segments mentionnels au niveau du document. Nos expériences montrent une amélioration allant jusqu'à 5,5 points de F1 lorsqu'une propagation de messages neuronale par graphe est intégrée à notre modèle conjoint. Cela démontre le potentiel de DWIE à stimuler de futures recherches sur les réseaux de neurones graphiques pour l'apprentissage de représentations dans le cadre de l'IE multitâche. DWIE est mis à disposition publiquement à l'adresse suivante : https://github.com/klimzaporojets/DWIE.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DWIE : un ensemble de données centré sur les entités pour l'extraction d'information au niveau du document multi-tâches | Articles | HyperAI