1 个月前
XLNet:用于语言理解的广义自回归预训练方法
Zhilin Yang; Zihang Dai; Yiming Yang; Jaime Carbonell; Ruslan Salakhutdinov; Quoc V. Le

摘要
凭借建模双向上下文的能力,基于去噪自编码的预训练方法(如BERT)在性能上优于基于自回归语言模型的预训练方法。然而,BERT依赖于通过掩码破坏输入数据,忽略了被掩码位置之间的依赖关系,并且存在预训练与微调之间的差异。鉴于这些优缺点,我们提出了XLNet,一种广义的自回归预训练方法,该方法(1)通过最大化所有因式分解顺序排列的期望似然性来实现学习双向上下文的目标;(2)由于其自回归公式,克服了BERT的局限性。此外,XLNet将最先进的自回归模型Transformer-XL的思想融入预训练中。实证研究表明,在相同的实验设置下,XLNet在20项任务中均优于BERT,包括问答、自然语言推理、情感分析和文档排序等任务,且通常优势显著。