
摘要
为融合抽取式与摘要式摘要方法的优势,句子重写(Sentence Rewriting)模型采用先从文档中提取关键句子,再对所选句子进行改写以生成摘要的策略。然而,现有该框架下的模型大多依赖于句子级别的奖励信号或次优标签,导致训练目标与评估指标之间存在不一致。本文提出一种新颖的训练信号,通过强化学习直接最大化摘要级别的ROUGE得分,从而实现更精准的目标对齐。此外,我们在模型中引入BERT,充分挖掘其在自然语言理解方面的强大能力。在大量实验中,我们验证了所提出的模型与训练方法相结合,在CNN/Daily Mail和New York Times数据集上均取得了新的最先进性能。同时,实验还表明该方法在DUC-2002测试集上具有更强的泛化能力。