12일 전

GenWiki: 비지도 그래프 텍스트 생성을 위한 130만 개의 콘텐츠 공유 텍스트 및 그래프 데이터셋

{Zheng Zhang, Xipeng Qiu, Qipeng Guo, Zhijing Jin}
GenWiki: 비지도 그래프 텍스트 생성을 위한 130만 개의 콘텐츠 공유 텍스트 및 그래프 데이터셋
초록

지식 그래프에서 텍스트 생성을 위한 데이터 수집은 비용이 매우 높다. 이에 따라 최근 비지도 학습 모델에 대한 연구가 활발히 진행되고 있다. 그러나 대부분의 비지도 모델은 기존의 작은 지도 학습 데이터셋의 평행하지 않은 버전을 사용해야 하는데, 이로 인해 모델의 잠재력이 크게 제한된다. 본 논문에서는 대규모이며 일반 도메인을 대상으로 한 새로운 데이터셋인 GenWiki를 제안한다. 본 비지도 데이터셋은 각각 130만 개의 텍스트 예제와 그래프 예제를 포함하고 있다. 인간 레이블링을 통해 확보한 테스트 세트를 제공함으로써, 향후 지식 그래프에서의 비지도 텍스트 생성 연구를 위한 새로운 벤치마크 데이터셋을 제시한다.

GenWiki: 비지도 그래프 텍스트 생성을 위한 130만 개의 콘텐츠 공유 텍스트 및 그래프 데이터셋 | 최신 연구 논문 | HyperAI초신경