2 个月前

使用单个预训练变压器实现样本高效的文本摘要生成

Urvashi Khandelwal; Kevin Clark; Dan Jurafsky; Lukasz Kaiser
使用单个预训练变压器实现样本高效的文本摘要生成
摘要

语言模型(LM)的预训练已经在多种语言理解任务中取得了令人印象深刻的表现和样本效率。然而,如何最佳地利用预训练的语言模型进行生成任务,如抽象概括(abstractive summarization),特别是提高样本效率,仍然是一个未解的问题。在这些序列到序列的任务设置中,先前的研究尝试将预训练的权重加载到编码器和/或解码器网络中,但使用了非预训练的编码器-解码器注意力权重。相比之下,我们使用了一个仅包含解码器的预训练网络,在该网络中,同一个Transformer语言模型既负责对源文本进行编码,也负责生成摘要。这确保了在网络的所有参数中,包括控制源状态注意力的参数,在微调步骤之前都已进行了预训练。在CNN/Daily Mail数据集上的实验表明,在有限数据条件下,我们的预训练Transformer语言模型显著优于预训练的Transformer编码器-解码器网络。例如,在仅使用1%的训练数据(约3000个样例)的情况下,它达到了13.1的ROUGE-2分数,而预训练的编码器-解码器模型则得分为2.3 ROUGE-2。

使用单个预训练变压器实现样本高效的文本摘要生成 | 最新论文 | HyperAI超神经