HyperAIHyperAI

Command Palette

Search for a command to run...

XLNet:用于语言理解的广义自回归预训练方法

Zhilin Yang Zihang Dai Yiming Yang Jaime Carbonell Ruslan Salakhutdinov Quoc V. Le

摘要

凭借建模双向上下文的能力,基于去噪自编码的预训练方法(如BERT)在性能上优于基于自回归语言模型的预训练方法。然而,BERT依赖于通过掩码破坏输入数据,忽略了被掩码位置之间的依赖关系,并且存在预训练与微调之间的差异。鉴于这些优缺点,我们提出了XLNet,一种广义的自回归预训练方法,该方法(1)通过最大化所有因式分解顺序排列的期望似然性来实现学习双向上下文的目标;(2)由于其自回归公式,克服了BERT的局限性。此外,XLNet将最先进的自回归模型Transformer-XL的思想融入预训练中。实证研究表明,在相同的实验设置下,XLNet在20项任务中均优于BERT,包括问答、自然语言推理、情感分析和文档排序等任务,且通常优势显著。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供