2달 전
WikiGraphs: 위키백과 텍스트 - 지식 그래프 짝짓기 데이터셋
Luyu Wang; Yujia Li; Ozlem Aslan; Oriol Vinyals

초록
우리는 조건부 텍스트 생성, 그래프 생성 및 그래프 표현 학습 연구를 촉진하기 위해 각각 지식 그래프와 짝을 이루는 위키백과 문서의 새로운 데이터셋을 제시합니다. 기존의 그래프-텍스트 짝 데이터셋은 일반적으로 작은 규모의 그래프와 짧은 텍스트(1개 또는 몇 개 문장)를 포함하고 있어, 이 데이터에서 학습할 수 있는 모델의 성능을 제한하였습니다. 우리의 새로운 데이터셋인 WikiGraphs는 설정된 WikiText-103 벤치마크(Merity et al., 2016)에서 각 위키백과 문서를 Freebase 지식 그래프(Bollacker et al., 2008)의 부분그래프와 짝을 이루어 수집되었습니다. 이로 인해 긴 문단의 일관된 텍스트를 생성할 수 있는 최신 텍스트 생성 모델들과 비교하는 것이 용이해졌습니다. 본 데이터셋의 그래프와 텍스트 데이터는 기존의 그래프-텍스트 짝 데이터셋에 비해 상당히 큰 규모입니다. 우리는 3가지 작업(그래프 → 텍스트 생성, 그래프 → 텍스트 검색, 텍스트 → 그래프 검색)에 대해 우리 데이터셋에서의 기준선 그래프 신경망 및 트랜스포머 모델 결과를 제시합니다. 우리는 그래프에 대한 더 나은 조건부 정보 제공이 생성 및 검색 품질을 개선하는데 도움이 됨을 보여주지만, 여전히 크게 개선될 여지가 있음을 확인하였습니다.