Plongements de graphes de connaissances multilingues pour l'alignement des connaissances interlinguistiques

De nombreux travaux récents ont démontré les avantages des plongements de graphes de connaissances (knowledge graph embeddings) dans le complétion de graphes de connaissances monolingues. Étant donné que des bases de connaissances connexes sont construites en plusieurs langues différentes, l'alignement croisé des connaissances permettra d'aider les personnes à construire une base de connaissances cohérente et d'assister les machines à gérer différentes expressions des relations d'entités à travers diverses langues humaines. Malheureusement, atteindre cet alignement croisé très souhaitable par le travail humain est très coûteux et sujet aux erreurs. Ainsi, nous proposons MTransE, un modèle basé sur la traduction pour les plongements de graphes de connaissances multilingues, afin de fournir une solution simple et automatisée. En codant les entités et les relations de chaque langue dans un espace de plongement séparé, MTransE fournit des transitions pour chaque vecteur de plongement vers ses homologues croisés-linguistiques dans d'autres espaces, tout en préservant les fonctionnalités des plongements monolingues. Nous utilisons trois techniques différentes pour représenter ces transitions croisées-linguistiques : le calibrage des axes, les vecteurs de traduction et les transformations linéaires, et nous dérivons cinq variantes de MTransE en utilisant différentes fonctions de perte. Nos modèles peuvent être entraînés sur des graphes partiellement alignés, où seulement une petite partie des triplets est alignée avec leurs homologues croisés-linguistiques. Les expériences menées sur l'appariement d'entités croisées-linguistiquement et la vérification d'alignement par triplets montrent des résultats prometteurs, avec certaines variantes surpassant constamment les autres sur différentes tâches. Nous explorons également comment MTransE préserve les propriétés clés de son homologue monolingue TransE.