MDE : Plongements à multiples distances pour la prédiction de liens dans les graphes de connaissances

Au cours de la dernière décennie, les graphes de connaissances sont devenus populaires pour capturer des connaissances structurées dans un domaine spécifique. Les modèles d'apprentissage relationnel permettent de prédire les liens manquants au sein des graphes de connaissances. Plus précisément, les approches basées sur la distance latente modélisent les relations entre entités par une distance entre leurs représentations latentes. Parmi les approches les plus populaires basées sur la distance latente figurent les modèles d'embedding translatoires (par exemple, TransE), qui utilisent une fonction de distance unique pour apprendre plusieurs motifs relationnels. Cependant, ces modèles sont généralement inefficaces pour capturer des relations symétriques car la norme du vecteur de représentation pour toutes les relations symétriques devient égale à zéro. Ils perdent également des informations lorsqu'ils apprennent des relations avec des motifs réflexifs, car celles-ci deviennent symétriques et transitives. Nous proposons le modèle d'embedding à multiples distances (MDE) qui remédie à ces limitations et un cadre permettant de combiner collaborativement différents termes basés sur la distance latente. Notre solution repose sur deux principes : 1) nous utilisons une perte basée sur une limite plutôt qu'une perte de classement marginale et, 2) en apprenant des vecteurs d'embedding indépendants pour chacun des termes, nous pouvons entraîner collectivement et prédire en utilisant des termes de distance contradictoires. Nous démontrons également que MDE permet de modéliser des relations avec des motifs de (anti)symétrie, d'inversion et de composition. Nous proposons MDE comme un modèle de réseau neuronal qui nous permet d'établir une correspondance entre les relations non linéaires entre les vecteurs d'embedding et la sortie attendue de la fonction de score. Nos résultats empiriques montrent que MDE se compare favorablement aux modèles d'embedding les plus avancés actuellement disponibles sur plusieurs jeux de données de référence.