
摘要
端到端神经数据到文本(Data-to-Text, D2T)生成近年来已成为传统流水线式架构的替代方案。然而,该方法在泛化至新领域以及生成语义一致的文本方面仍面临挑战。本文提出DataTuner,一种基于神经网络的端到端数据到文本生成系统,其对数据表示形式和目标领域均做出最少假设。我们采用两阶段生成-重排序框架,结合微调的语言模型与语义保真度分类器。系统中各组件均实现端到端学习,无需依赖特定数据集的启发式规则、实体去泛化(entity delexicalization)或后处理步骤。实验结果表明,DataTuner在四个主流D2T数据集(LDC2017T10、WebNLG、ViGGO和Cleaned E2E)上的自动评估指标上均达到当前最优水平,且经人工评估的流畅度接近甚至超过人类撰写的参考文本。此外,我们进一步证明,DataTuner中基于模型的语义保真度评分器相较于传统的基于启发式规则的评估方法具有更优的评估性能。在所有四个数据集上,DataTuner生成文本的语义保真度显著优于现有最先进方法。