17 天前
ToTTo:一个受控的表格到文本生成数据集
Ankur P. Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, Dipanjan Das

摘要
我们提出 ToTTo,一个开放域的英文表格到文本数据集,包含超过12万个训练样本,其任务设定为可控生成:给定一个维基百科表格及一组高亮的单元格,生成一句描述性文本。为确保生成的目标文本既自然又忠实于原始表格内容,我们设计了一种数据集构建流程,其中标注人员直接对维基百科中已有的候选句子进行修订。我们对数据集和标注过程进行了系统性分析,并报告了多种先进基线模型在该数据集上的实验结果。尽管现有方法通常能生成流畅的文本,但往往会产生表格中并未支持的虚构表述,这表明该数据集可作为高精度条件文本生成任务的重要研究基准。