SimplE Embedding pour la Prédiction de Liens dans les Graphes de Connaissances

Les graphes de connaissances contiennent des informations sur le monde et offrent une représentation structurée de ces connaissances. Les graphes de connaissances actuels ne comprennent qu'un petit sous-ensemble de ce qui est vrai dans le monde. Les approches de prédiction de liens visent à prédire de nouveaux liens pour un graphe de connaissances en se basant sur les liens existants entre les entités. Les méthodes de factorisation tensorielle ont montré leur potentiel pour résoudre ces problèmes de prédiction de liens. Proposée en 1927, la décomposition Canonique Polyadique (CP) fait partie des premières approches de factorisation tensorielle. La méthode CP performe généralement mal pour la prédiction de liens car elle apprend deux vecteurs d'embedding indépendants pour chaque entité, alors qu'ils sont en réalité interdépendants. Nous présentons une amélioration simple de CP (que nous appelons SimplE) permettant d'apprendre les deux embeddings de chaque entité de manière dépendante. La complexité de SimplE croît linéairement avec la taille des embeddings. Les embeddings appris grâce à SimplE sont interprétables, et certains types de connaissances contextuelles peuvent être intégrés dans ces embeddings par le biais du partage des poids. Nous démontrons que SimplE est pleinement expressif et établissons une borne sur la taille de ses embeddings pour une expressivité complète. Nous montrons empiriquement que, malgré sa simplicité, SimplE surpassse plusieurs techniques avancées actuelles en matière de factorisation tensorielle. Le code source de SimplE est disponible sur GitHub à l'adresse suivante : https://github.com/Mehran-k/SimplE.