2 个月前

用于生成摘要的深度强化模型

Romain Paulus; Caiming Xiong; Richard Socher

摘要

基于注意力机制的循环神经网络（RNN）编码器-解码器模型在生成抽象摘要时，在较短的输入和输出序列上已经取得了良好的性能。然而，对于较长的文档和摘要，这些模型往往包含重复和不连贯的短语。我们提出了一种具有新颖内部注意力机制的神经网络模型，该机制分别对输入和连续生成的输出进行关注，并引入了一种新的训练方法，该方法结合了传统的监督式单词预测和强化学习（Reinforcement Learning, RL）。仅通过监督学习训练的模型通常会表现出“暴露偏差”——它们假设在训练过程中每一步都提供了真实值。然而，当传统的单词预测与RL的全局序列预测训练相结合时，生成的摘要变得更加可读。我们在CNN/Daily Mail和《纽约时报》数据集上评估了该模型。我们的模型在CNN/Daily Mail数据集上获得了41.16的ROUGE-1分数，优于之前的最先进模型。人工评估也表明，我们的模型生成了更高品质的摘要。