16 天前
BART:用于自然语言生成、翻译与理解的去噪序列到序列预训练
Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoyer

摘要
我们提出BART,一种用于预训练序列到序列模型的去噪自编码器。BART通过(1)使用任意的噪声函数对文本进行破坏,以及(2)学习一个模型以重建原始文本的方式进行训练。其架构采用标准的基于Transformer的神经机器翻译模型,尽管结构简单,但可被视为对BERT(得益于双向编码器)、GPT(采用从左到右的解码器)以及诸多近期预训练方法的统一与推广。我们评估了多种噪声策略,发现最佳效果来自于随机打乱原始句子顺序,并结合一种新颖的“填空式”噪声机制——即用单个掩码标记(mask token)替换文本中的连续片段。BART在微调用于文本生成任务时表现出色,同时在理解类任务中也表现良好。在GLUE和SQuAD基准上,其性能与RoBERTa相当,且在训练资源相近的情况下达到相同水平;在多种抽象型对话、问答及摘要任务中,BART取得了新的最先进成果,ROUGE得分提升最高达6分。此外,在仅使用目标语言预训练的前提下,BART在机器翻译任务中相较回译(back-translation)系统实现了1.1的BLEU分数提升。我们还报告了消融实验,通过在BART框架内复现其他预训练范式,以更准确地评估影响下游任务性能的关键因素。