il y a 11 jours

Complétion de graphe de connaissances multilingue avec alignement conjoint des relations et des entités

Harkanwar Singh, Prachi Jain, Mausam, Soumen Chakrabarti

Résumé

La complétion des graphes de connaissances (KGC) vise à prédire des faits manquants dans un graphe de connaissances incomplet. Presque toutes les recherches actuelles sur la KGC ne s'appliquent qu'à un seul graphe de connaissances à la fois, et uniquement dans une seule langue. Or, les utilisateurs de différentes langues peuvent entretenir des graphes de connaissances distincts dans leur langue respective, et aucun de ces graphes n'est censé être complet. De plus, les entités ou relations communes entre ces graphes présentent des formes superficielles et des identifiants différents, ce qui entraîne une prolifération des identifiants. Les tâches d’alignement d’entités (EA) et d’alignement de relations (RA) permettent de résoudre ce problème en identifiant des paires d’identifiants d’entités (ou de relations) provenant de graphes différents qui représentent la même entité (ou la même relation). Cet alignement peut également améliorer la prédiction des faits manquants, car les connaissances tirées d’un graphe peuvent bénéficier à la complétion d’un autre. En retour, des prédictions à haute confiance peuvent apporter des informations précieuses aux tâches d’alignement. À cet effet, nous proposons d’étudier une nouvelle tâche : l’entraînement conjoint de modèles multilingues pour la KGC, l’alignement d’entités et l’alignement de relations. Nous introduisons ALIGNKGC, un modèle qui utilise certains alignements initiaux pour optimiser conjointement les pertes associées à la KGC, à l’EA et à la RA. Un élément clé d’ALIGNKGC est une notion souple basée sur les embeddings, définie à partir d’un surcroît asymétrique sur les signatures d’ensembles (sujet, objet) des relations, ce qui améliore la prédiction des relations équivalentes ou implicites par rapport à d’autres relations. Des expériences étendues sur DBpedia dans cinq langues démontrent les avantages de l’entraînement conjoint pour toutes les tâches, avec des gains de 10 à 32 points en MRR d’ALIGNKGC par rapport à un modèle d’état de l’art performant pour la complétion monolingue sur chaque graphe de connaissances individuel. En outre, ALIGNKGC obtient des améliorations significatives sur les tâches d’EA et de RA par rapport à un modèle de complétion basique appliqué à un graphe combinant toutes les faits sans alignement, soulignant ainsi la valeur de l’entraînement conjoint pour ces tâches.