Amélioration de l'extraction de relations supervisée à distance en utilisant l'attention basée sur les mots et les entités

L'extraction de relations est le problème de classification de la relation entre deux entités dans une phrase donnée. La supervision à distance (SD) est une technique populaire pour développer des extracteurs de relations à partir d'une supervision limitée. Nous notons que la plupart des phrases dans le cadre de l'extraction de relations par supervision à distance sont très longues et peuvent bénéficier d'un mécanisme d'attention aux mots pour améliorer leur représentation. Nos contributions dans cet article sont triples. Premièrement, nous proposons deux nouveaux modèles d'attention aux mots pour l'extraction de relations supervisée à distance : (1) un modèle d'attention aux mots basé sur une unité récurrente porteuse bidirectionnelle (Bi-GRU) (BGWA), (2) un modèle d'attention centré sur les entités (EA), et (3) un modèle combinatoire qui associe plusieurs modèles complémentaires en utilisant une méthode de vote pondéré pour améliorer l'extraction de relations. Deuxièmement, nous présentons GDS, un nouveau jeu de données de supervision à distance pour l'extraction de relations. GDS élimine le bruit des données de test présent dans tous les jeux de données précédents utilisés comme référence pour la supervision à distance, rendant ainsi possible une évaluation automatique fiable. Troisièmement, grâce à des expériences approfondies menées sur plusieurs jeux de données réels, nous démontrons l'efficacité des méthodes proposées.