
摘要
神经抽取式摘要模型通常使用层次编码器对文档进行编码,并通过基于规则的方法启发式生成的句子级标签进行训练。然而,使用这些\emph{不准确}的标签训练层次编码器具有挑战性。受最近关于预训练变压器句子编码器的工作\cite{devlin:2018:arxiv}的启发,我们提出了{\sc Hibert}(即{\bf HI}erarchical {\bf B}idirectional {\bf E}ncoder {\bf R}epresentations from {\bf T}ransformers的缩写)用于文档编码,并提出了一种利用无标签数据对其进行预训练的方法。我们将预训练的{\sc Hibert}应用于我们的摘要模型中,结果在CNN/Dailymail数据集上比随机初始化的模型提高了1.25个ROUGE分数,在纽约时报数据集的一个版本上提高了2.0个ROUGE分数。此外,我们在这两个数据集上也达到了当前最先进的性能。