HyperAIHyperAI
il y a 2 mois

CoType : Extraction conjointe d'entités typées et de relations avec des bases de connaissances

Xiang Ren; Zeqiu Wu; Wenqi He; Meng Qu; Clare R. Voss; Heng Ji; Tarek F. Abdelzaher; Jiawei Han
CoType : Extraction conjointe d'entités typées et de relations avec des bases de connaissances
Résumé

L'extraction d'entités et de relations de types d'intérêt à partir du texte est essentielle pour comprendre les grands corpus textuels. Traditionnellement, les systèmes d'extraction de relations d'entités se sont appuyés sur des corpus annotés par des humains pour l'entraînement et ont adopté une chaîne de traitement incrémentielle. Ces systèmes nécessitent une expertise supplémentaire humaine pour être adaptés à un nouveau domaine et sont vulnérables aux erreurs qui peuvent s'accumuler tout au long de la chaîne de traitement. Dans cet article, nous examinons l'extraction conjointe d'entités typées et de relations à partir de données étiquetées obtenues heuristiquement à partir de bases de connaissances (c'est-à-dire la supervision distante). Étant donné que notre algorithme d'étiquetage des types par supervision distante ne prend pas en compte le contexte, les données d'entraînement bruyantes posent des défis uniques pour cette tâche. Nous proposons un cadre indépendant du domaine, appelé CoType, qui utilise un algorithme de segmentation textuelle basé sur les données pour extraire les mentions d'entités, et qui intègre conjointement les mentions d'entités, les mentions de relations, les caractéristiques textuelles et les étiquettes de type dans deux espaces à faible dimension (pour les mentions d'entités et les mentions de relations respectivement), où, dans chaque espace, les objets dont les types sont proches auront également des représentations similaires. CoType utilise ensuite ces plongements appris pour estimer les types des mentions test (non liables). Nous formulons un problème d'optimisation conjointe pour apprendre ces plongements à partir des corpus textuels et des bases de connaissances, en adoptant une nouvelle fonction de perte avec étiquettes partielles pour gérer les données étiquetées bruyantes et en introduisant une fonction de « traduction » d'objets pour capturer les contraintes croisées entre entités et relations. Les expériences menées sur trois jeux de données publics démontrent l'efficacité de CoType dans différents domaines (par exemple, actualités, biomédical), avec une amélioration moyenne de 25 % du score F1 par rapport à la méthode la plus performante suivante.