
摘要
摘要是将长篇文档压缩成包含原始文档最重要事实的人类可读形式。然而,现有方法在实际抽象程度上仍较低,这主要体现在生成的摘要中很少出现源文档中未有的新短语。本文提出两种技术以提高生成摘要的抽象水平。首先,我们将解码器分解为一个上下文网络,该网络检索源文档的相关部分,以及一个预训练语言模型,该模型融入了关于语言生成的先验知识。其次,我们提出了一种新颖性度量指标,并通过策略学习直接优化这一指标,以鼓励生成新的短语。我们的模型在ROUGE分数和人工评估方面达到了与最先进模型相当的结果,同时在以n-gram重叠率衡量的抽象程度上显著提高。