HyperAIHyperAI
il y a 17 jours

Modélisation efficace de l'architecture encodeur-décodeur pour l'extraction conjointe d'entités et de relations

Tapas Nayak, Hwee Tou Ng
Modélisation efficace de l'architecture encodeur-décodeur pour l'extraction conjointe d'entités et de relations
Résumé

Un triplet relationnel se compose de deux entités et de la relation qui les lie, et de tels triplets sont fréquemment présents dans des textes non structurés. Un même texte peut contenir plusieurs triplets relationnels, qui peuvent partager une ou deux entités. L'extraction de ces triplets à partir d'une phrase constitue une tâche difficile, et le partage ou le chevauchement d'entités entre les triplets rend cette tâche encore plus complexe. La plupart des travaux antérieurs ont adopté une approche en pipeline, où les entités sont d'abord identifiées, puis les relations entre elles sont déterminées, ce qui fait perdre de vue les interactions entre les triplets relationnels au sein d'une même phrase. Dans cet article, nous proposons deux approches basées sur une architecture encodeur-décodeur pour extraire conjointement entités et relations. Dans la première approche, nous introduisons un schéma de représentation des triplets relationnels qui permet au décodeur de générer un mot à la fois, de manière similaire aux modèles de traduction automatique, tout en parvenant à identifier tous les triplets présents dans une phrase, avec les noms complets des entités de longueurs variables et même en présence de chevauchements. Ensuite, nous proposons une approche de décodage basée sur un réseau à pointeurs, où un triplet entier est généré à chaque pas de temps. Des expériences menées sur le corpus publique New York Times montrent que nos approches proposées surpassent les méthodes antérieures et atteignent des scores F1 significativement plus élevés.