Complétion de graphe de connaissances par factorisation tensorielle complexe

Dans l'apprentissage relationnel statistique, le complétion de graphe de connaissances consiste à comprendre automatiquement la structure de grands graphes de connaissances – des graphes dirigés étiquetés – et à prédire les relations manquantes – des arêtes étiquetées. Les modèles d'embedding les plus récents proposent différents compromis entre l'expressivité du modèle et la complexité en temps et en espace. Nous concilions l'expressivité et la complexité grâce à l'utilisation d'embeddings complexes et explorons le lien entre ces embeddings complexes et la diagonalisation unitaire. Nous validons notre approche théoriquement et démontrons que toutes les matrices carrées réelles – donc toutes les matrices de relation/adjacence possibles – sont la partie réelle d'une certaine matrice unitairement diagonalisable. Ce résultat ouvre la voie à de nombreuses autres applications de la factorisation des matrices carrées. Notre approche basée sur les embeddings complexes est relativement simple, car elle ne nécessite qu'un produit hermitien, l'équivalent complexe du produit scalaire standard entre vecteurs réels, tandis que d'autres méthodes recourent à des fonctions de composition de plus en plus complexes pour augmenter leur expressivité. Les embeddings complexes proposés sont évolutifs pour des ensembles de données volumineux, restant linéaires en termes d'espace et de temps, tout en surpassant constamment les approches alternatives sur des benchmarks standard de prédiction de liens.