Comment les intégrations de graphes de connaissances extrapolent-elles à des données inédites : une perspective fondée sur les preuves sémantiques

L’embedding des graphes de connaissances (Knowledge Graph Embedding, KGE) vise à apprendre des représentations pour les entités et les relations. La plupart des modèles KGE ont remporté un grand succès, notamment dans des scénarios d’extrapolation. En particulier, étant donné un triplet inédit (h, r, t), un modèle entraîné est encore capable de prédire correctement t à partir de (h, r, ?), ou h à partir de (?, r, t) : cette capacité d’extrapolation est remarquable. Toutefois, la plupart des travaux existants sur le KGE se concentrent principalement sur la conception de fonctions de modélisation élaborées pour les triplets, qui indiquent principalement comment évaluer la plausibilité des triplets observés, mais offrent une explication limitée quant à la raison pour laquelle ces méthodes peuvent extrapoler à des données inédites, ni sur les facteurs clés qui favorisent cette extrapolation. Dans ce travail, nous nous efforçons d’étudier deux questions fondamentales liées à l’extrapolation KGE : 1. Comment le KGE parvient-il à extrapoler à des données inédites ? 2. Comment concevoir un modèle KGE doté d’une meilleure capacité d’extrapolation ? Pour la première question, nous analysons tout d’abord les facteurs influençant l’extrapolation à trois niveaux : relation, entité et triplet. À partir de cette analyse, nous proposons trois preuves sémantiques (Semantic Evidences, SEs), qui peuvent être observées dans l’ensemble d’entraînement et fournissent des informations sémantiques cruciales pour l’extrapolation. Nous validons l’efficacité de ces SEs à travers des expériences étendues sur plusieurs méthodes KGE classiques. Pour la deuxième question, afin d’exploiter pleinement les trois niveaux de SE, nous proposons un nouveau modèle KGE basé sur les réseaux de neurones graphiques (GNN), appelé Semantic Evidence-aware Graph Neural Network (SE-GNN). Dans SE-GNN, chaque niveau de preuve sémantique est modélisé de manière explicite via un motif de voisinage spécifique, puis fusionné de manière efficace grâce à une aggregation multi-couche, ce qui contribue à obtenir des représentations de connaissances plus aptes à l’extrapolation. Enfin, à travers des expériences étendues sur les jeux de données FB15k-237 et WN18RR, nous démontrons que SE-GNN atteint des performances de pointe sur la tâche de complétion de graphes de connaissances et présente une capacité d’extrapolation supérieure. Le code de notre travail est disponible à l’adresse suivante : https://github.com/renli1024/SE-GNN.