
摘要
数据到文本生成(Data-to-text generation)近年来因其广泛的应用而引起了大量关注。现有的方法在多种任务上展示了令人印象深刻的表现。然而,这些方法依赖于每个任务的大量标注数据,这不仅成本高昂,而且限制了它们在新任务和新领域的应用。本文提出利用预训练和迁移学习来解决这一问题。我们提出了一种基于知识的预训练模型(Knowledge-Grounded Pre-Training, KPGT),该模型包含两个部分:1)一个通用的知识增强生成模型,用于生成富含知识的文本;2)一种在从网络爬取的大规模知识增强文本语料库上进行预训练的方法。预训练后的模型可以在各种数据到文本生成任务上进行微调,以生成特定于任务的文本。我们采用了三种设置来评估该模型的有效性:完全监督、零样本和少样本。在完全监督设置下,我们的模型相比已知基线模型取得了显著的性能提升。在零样本设置下,我们的模型即使没有见过任何示例,在WebNLG上的ROUGE-L得分也超过了30分,而所有其他基线模型均未能达到这一成绩。在少样本设置下,我们的模型只需要大约五分之一的标注样本来达到与基线模型相同的性能水平。这些实验结果一致证明了我们所提出的框架具有强大的泛化能力。相关代码和资源可访问:https://github.com/wenhuchen/KGPT