
摘要
知识图谱到文本(G2T)生成涉及将结构化的知识图谱转化为自然语言文本。预训练语言模型(PLMs)的最新进展已经提升了G2T的性能,但其效果依赖于具有精确图谱-文本对齐的数据集。然而,高质量、通用领域的G2T生成数据集的稀缺限制了该领域研究的进展。为了解决这一问题,我们引入了维基百科无本体图谱-文本数据集(WikiOFGraph),这是一个通过新颖方法生成的大规模G2T数据集,该方法结合了大型语言模型(LLM)和Data-QuestEval。我们的新数据集包含585万个通用领域的图谱-文本对,提供了高图谱-文本一致性,而无需依赖外部本体。实验结果表明,在WikiOFGraph上微调的PLM在各种评估指标上优于其他数据集上训练的模型。我们的方法被证明是一种可扩展且有效的解决方案,用于生成高质量的G2T数据,显著推进了G2T生成领域的发展。