
摘要
近期研究表明,在大规模文本语料上通过自监督目标对Transformer模型进行预训练,并在下游自然语言处理任务(包括文本摘要)上进行微调,取得了显著成效。然而,针对抽象式文本摘要任务量身定制的预训练目标尚未得到充分探索,且在不同领域间的系统性评估仍显不足。为此,本文提出一种新的自监督预训练方法,用于在海量文本语料上训练基于Transformer的编码器-解码器大型模型。在该方法中,我们设计了名为PEGASUS的新框架:从输入文档中移除或屏蔽关键句子,模型则需基于剩余句子联合生成这些被移除的句子作为输出,这一过程类似于抽取式摘要的生成机制。我们在涵盖新闻、科学文献、故事、操作说明、电子邮件、专利及立法提案等多样领域的12个下游摘要任务上评估了性能最优的PEGASUS模型。实验结果表明,该模型在全部12个数据集上均以ROUGE评分取得了当前最优(SOTA)表现。此外,该模型在低资源摘要场景下也展现出惊人性能,在仅使用1000个训练样本的6个数据集上,其表现超越了此前的最先进方法。最后,我们通过人工评估验证了模型结果,结果表明,PEGASUS生成的摘要在多个数据集上已达到人类水平的摘要质量。