
초록
우리는 Wikidata와 Wikipedia에서 추출한 CoDEx를 소개합니다. 이는 범위와 난이도 측면에서 기존의 지식 그래프 완성 벤치마크를 개선한 지식 그래프 완성 데이터셋 집합입니다. 범위 측면에서는 CoDEx가 크기와 구조가 다른 세 가지 지식 그래프, 다국어로 된 엔티티 및 관계 설명, 그리고 수만 개의 어려운 부정 트리플(부정적인 그러나 확인된 사실)을 포함하고 있습니다. CoDEx의 특성을 정확히 파악하기 위해 철저한 경험적 분석과 벤치마킹 실험을 제공합니다. 먼저, 각 CoDEx 데이터셋의 논리적 관계 패턴을 분석합니다. 다음으로, 다섯 가지 광범위하게 조정된 임베딩 모델에 대한 CoDEx에서의 기본 링크 예측 및 트리플 분류 결과를 보고합니다. 마지막으로, 인기 있는 FB15K-237 지식 그래프 완성 데이터셋과 CoDEx를 비교하여 CoDEx가 더 다양하고 해석 가능한 내용을 포함하며, 더 어려운 링크 예측 벤치마크임을 보여줍니다. 데이터, 코드 및 사전 학습된 모델은 https://bit.ly/2EPbrJs에서 이용할 수 있습니다.