
摘要
如何从以表格形式组织的结构化数据中生成描述性文本?现有的基于神经编码器-解码器模型的方法通常存在生成结果缺乏多样性的问题。我们认为,采用开放式的模板集合对于丰富短语结构并实现多样化的文本生成至关重要。然而,学习此类模板往往成本高昂,因为这通常需要大规模的配对数据集(即<表格, 描述>对),而这类数据在实际中极为稀缺。本文探讨了如何从配对与非配对数据中自动学习可复用的“模板”这一问题。为此,我们提出了一种新颖的方法——变分模板机(Variational Template Machine, VTM),用于从数据表中生成文本描述。本文的主要贡献包括:a) 我们精心设计了一种特定的模型架构及损失函数,能够在潜在空间中显式地解耦文本模板与语义内容信息;b) 我们同时利用少量平行数据(即配对的表格与描述)和大量未对齐的原始文本数据,以增强模板学习的丰富性与泛化能力。在多个不同领域的数据集上进行的实验表明,VTM能够在保持良好流畅性与生成质量的前提下,显著提升生成文本的多样性。