
要約
私たちはCoDExを紹介します。これは、WikidataとWikipediaから抽出された知識グラフ補完データセットで、既存の知識グラフ補完ベンチマークの範囲と難易度を改善しています。範囲に関しては、CoDExはサイズや構造が異なる3つの知識グラフ、多言語でのエンティティとリレーションの説明、そして数万件の難易度の高い否定的なトリプル(plausible but verified to be false)を含んでいます。CoDExの特性を明らかにするために、私たちは詳細な実証分析とベンチマーク実験に貢献しました。まず、各CoDExデータセットにおける論理的なリレーションパターンを分析しました。次に、5つの広く調整された埋め込みモデルを使用してCoDEx上でベースラインのリンク予測およびトリプル分類結果を報告します。最後に、人気のあるFB15K-237知識グラフ補完データセットとの違いを示すために、CoDExがより多様で解釈可能な内容をカバーし、より難しいリンク予測ベンチマークであることを示します。データ、コード、および事前学習済みモデルはhttps://bit.ly/2EPbrJs で利用可能です。