il y a 11 jours

Alignement d'entités multilingue avec une supervision incidentelle

Muhao Chen, Weijia Shi, Ben Zhou, Dan Roth

Résumé

Un important effort de recherche a été consacré aux méthodes d’embedding des graphes de connaissances multilingues (KG) afin de résoudre la tâche d’alignement d’entités, qui vise à associer des entités apparaissant dans différents graphes de connaissances spécifiques à une langue et qui font référence au même objet du monde réel. Ces méthodes sont souvent entravées par le manque de paires d’alignement initiales (seed alignment) fournies entre les KG. Par conséquent, nous proposons un modèle supervisé incidentel, JEANS, qui représente conjointement les graphes de connaissances multilingues et les corpus textuels dans un même espace d’embedding, tout en cherchant à améliorer l’alignement d’entités grâce à des signaux de supervision incidentels extraits du texte. JEANS met d’abord en œuvre un processus de localisation d’entités (entity grounding) pour associer chaque KG au corpus textuel monolingue correspondant. Ensuite, deux processus d’apprentissage sont effectués : (i) un processus d’apprentissage d’embedding visant à encoder le KG et le texte de chaque langue dans un même espace d’embedding, et (ii) un processus d’apprentissage d’alignement basé sur l’apprentissage auto-étayé (self-learning), permettant d’itérativement induire l’alignement des entités ainsi que celui des lexèmes entre les embeddings. Les expériences menées sur des jeux de données de référence montrent que JEANS permet une amélioration prometteuse de l’alignement d’entités grâce à une supervision incidentelle, et s’avère significativement supérieur aux méthodes de pointe qui ne s’appuient exclusivement que sur les informations internes des KG.