SimKGC : Complétion de graphes de connaissances simple par contraste avec des modèles de langage pré-entraînés

La complétion des graphes de connaissances (KGC) vise à raisonner à partir de faits connus afin d’inférer des liens manquants. Les méthodes basées sur le texte, telles que KGBERT (Yao et al., 2019), apprennent des représentations d’entités à partir de descriptions en langage naturel et offrent un potentiel pour la KGC inductive. Toutefois, les performances de ces méthodes basées sur le texte restent largement inférieures à celles des méthodes fondées sur les embeddings de graphes, comme TransE (Bordes et al., 2013) ou RotatE (Sun et al., 2019b). Dans cet article, nous identifions que le principal obstacle réside dans l’apprentissage contrastif efficace. Pour améliorer cette efficacité, nous introduisons trois types de négatifs : des négatifs intra-batch, des négatifs pré-batch et des auto-négatifs, qui agissent comme une forme simple de négatifs difficiles (hard negatives). En combinant ces éléments avec une perte InfoNCE, le modèle proposé, SimKGC, surpasse de manière significative les méthodes basées sur les embeddings sur plusieurs jeux de données de référence. En termes de moyenne de l’inverse du rang (MRR), nous améliorons l’état de l’art de +19 % sur WN18RR, de +6,8 % dans le cadre transductif de Wikidata5M, et de +22 % dans le cadre inductif de Wikidata5M. Des analyses approfondies sont menées afin d’explorer les rôles de chaque composant. Le code de notre travail est disponible à l’adresse suivante : https://github.com/intfloat/SimKGC.