
摘要
与抽取式摘要不同,生成式摘要需要融合源文本的不同部分,这容易导致生成虚假事实。我们的初步研究表明,最先进的神经摘要系统输出的内容中有近30%存在这一问题。尽管以往的生成式摘要方法通常侧重于提高信息量,我们认为忠实性也是实用生成式摘要系统的重要前提。为了在摘要中避免生成虚假事实,我们利用开放信息提取和依存句法分析技术从源文本中提取实际的事实描述。随后,提出了一种双注意力序列到序列框架,以迫使摘要的生成同时依赖于源文本和提取出的事实描述。在Gigaword基准数据集上的实验表明,我们的模型可以将虚假摘要减少80%。值得注意的是,事实描述还显著提高了信息量,因为它们通常浓缩了源文本的意义。