CoDEx: Ein umfassender Benchmark für die Vervollständigung von Wissensgraphen

Wir stellen CoDEx vor, eine Reihe von Wissensgraph-Vervollständigungsdatensätzen, die aus Wikidata und Wikipedia extrahiert wurden und bestehende Wissensgraph-Vervollständigungsbenchmarks in Umfang und Schwierigkeitsgrad verbessern. Hinsichtlich des Umfangs umfasst CoDEx drei Wissensgraphen unterschiedlicher Größe und Struktur, mehrsprachige Beschreibungen von Entitäten und Relationen sowie Tausende von schweren negativen Tripeln, die plausibel sind, aber als falsch verifiziert wurden. Um CoDEx zu charakterisieren, leisten wir umfassende empirische Analysen und Benchmark-Experimente. Zunächst analysieren wir jeden CoDEx-Datensatz hinsichtlich logischer Relationsmuster. Anschließend berichten wir über Baseline-Ergebnisse für Link-Prediction und Triple-Klassifikation auf CoDEx für fünf intensiv justierte Einbettungsmodelle. Schließlich unterscheiden wir CoDEx vom beliebten FB15K-237-Wissensgraph-Vervollständigungsdatensatz, indem wir zeigen, dass CoDEx inhaltsmäßig vielfältiger und interpretierbarer ist und ein schwierigeres Benchmark für Link-Prediction darstellt. Daten, Code und vortrainierte Modelle sind unter https://bit.ly/2EPbrJs verfügbar.