CoDEx : Un benchmark complet pour l'achèvement de graphes de connaissances

Nous présentons CoDEx, un ensemble de jeux de données pour l'achèvement des graphes de connaissances extraits de Wikidata et Wikipedia, qui améliorent les benchmarks existants en termes d'étendue et de niveau de difficulté. En ce qui concerne l'étendue, CoDEx comprend trois graphes de connaissances variant en taille et en structure, des descriptions multilingues des entités et des relations, ainsi que plusieurs dizaines de milliers de triples négatifs difficiles qui sont plausibles mais vérifiés comme faux. Pour caractériser CoDEx, nous contribuons à des analyses empiriques approfondies et à des expériences de benchmarking. Tout d'abord, nous analysons chaque jeu de données CoDEx en termes de modèles logiques de relations. Ensuite, nous rapportons les résultats baselines de prédiction de liens et de classification de triples sur CoDEx pour cinq modèles d'embedding largement ajustés. Enfin, nous distinguons CoDEx du populaire jeu de données FB15K-237 pour l'achèvement des graphes de connaissances en montrant que CoDEx couvre un contenu plus diversifié et interprétable, et constitue un benchmark plus difficile pour la prédiction des liens. Les données, le code source et les modèles préentraînés sont disponibles à l'adresse suivante : https://bit.ly/2EPbrJs.