
摘要
基于注意力机制的循环神经网络(RNN)编码器-解码器模型在生成抽象摘要时,在较短的输入和输出序列上已经取得了良好的性能。然而,对于较长的文档和摘要,这些模型往往包含重复和不连贯的短语。我们提出了一种具有新颖内部注意力机制的神经网络模型,该机制分别对输入和连续生成的输出进行关注,并引入了一种新的训练方法,该方法结合了传统的监督式单词预测和强化学习(Reinforcement Learning, RL)。仅通过监督学习训练的模型通常会表现出“暴露偏差”——它们假设在训练过程中每一步都提供了真实值。然而,当传统的单词预测与RL的全局序列预测训练相结合时,生成的摘要变得更加可读。我们在CNN/Daily Mail和《纽约时报》数据集上评估了该模型。我们的模型在CNN/Daily Mail数据集上获得了41.16的ROUGE-1分数,优于之前的最先进模型。人工评估也表明,我们的模型生成了更高品质的摘要。