Génération Rapide des Plongements de Graphes de Connaissances

Les méthodes d'embedding de graphes de connaissances visent à représenter les entités et les relations d'une base de connaissances sous forme de points ou de vecteurs dans un espace vectoriel continu. Plusieurs approches utilisant des embeddings ont montré des résultats prometteurs pour des tâches telles que la prédiction de liens, la recommandation d'entités, la réponse aux questions et la classification de triplets. Cependant, seules quelques méthodes peuvent calculer des embeddings de faible dimensionnalité pour des bases de connaissances très grandes sans nécessiter des ressources informatiques de pointe. Dans cet article, nous proposons KG2Vec, une approche simple et rapide pour l'embedding de graphes de connaissances basée sur le modèle skip-gram. Au lieu d'utiliser une fonction de score prédéfinie, nous apprenons cette fonction en s'appuyant sur les Mémoires à court et long terme (LSTM). Nous démontrons que nos embeddings obtiennent des résultats comparables aux approches les plus scalables en termes de complétion de graphes de connaissances ainsi qu'avec une nouvelle métrique. Néanmoins, KG2Vec peut embedder des graphes importants en moins de temps, traitant plus de 250 millions de triplets en moins de 7 heures sur du matériel courant.