
摘要
知识图谱到文本生成的数据收集成本高昂,因此近年来无监督模型的研究成为活跃领域。然而,大多数无监督模型不得不依赖现有小型监督数据集的非平行版本,这在很大程度上限制了其潜力。本文提出一个大规模、通用领域的数据集——GenWiki。该无监督数据集分别包含130万条文本和图谱样本。同时,我们构建了一个人工标注的测试集,为未来基于知识图谱的无监督文本生成研究提供了一个新的基准数据集。
知识图谱到文本生成的数据收集成本高昂,因此近年来无监督模型的研究成为活跃领域。然而,大多数无监督模型不得不依赖现有小型监督数据集的非平行版本,这在很大程度上限制了其潜力。本文提出一个大规模、通用领域的数据集——GenWiki。该无监督数据集分别包含130万条文本和图谱样本。同时,我们构建了一个人工标注的测试集,为未来基于知识图谱的无监督文本生成研究提供了一个新的基准数据集。