Une référence pour la prédiction de liens semi-inductive dans les graphes de connaissances

La prédiction de liens semi-inductive (LP) dans les graphes de connaissances (KG) est la tâche de prédire des faits pour de nouvelles entités, auparavant inconnues, en se basant sur des informations contextuelles. Bien que, en principe, il soit possible d'intégrer de nouvelles entités en réentraînant le modèle à partir de zéro, une telle approche est irréaliste pour les KGs à grande échelle, où le réentraînement est coûteux et où de nouvelles entités peuvent apparaître fréquemment. Dans cet article, nous proposons et décrivons un benchmark à grande échelle pour évaluer les modèles de LP semi-inductifs. Ce benchmark s'appuie sur et étend Wikidata5M : il fournit des tâches de LP transductif, k-shot et 0-shot, chacune variant les informations disponibles (i) uniquement la structure du KG, (ii) incluant des mentions textuelles, et (iii) des descriptions détaillées des entités. Nous rapportons une petite étude des approches récentes et avons constaté que la performance de la prédiction de liens semi-inductive était loin d'égaler celle du LP transductif pour les entités à queue longue dans l'ensemble des expériences. Le benchmark offre un terrain d'essai pour des recherches ultérieures visant à intégrer le contexte et les informations textuelles dans les modèles de LP semi-inductifs.