1 个月前

Transformer-XL:超越固定长度上下文的注意力语言模型

Zihang Dai; Zhilin Yang; Yiming Yang; Jaime Carbonell; Quoc V. Le; Ruslan Salakhutdinov
Transformer-XL:超越固定长度上下文的注意力语言模型
摘要

变压器模型在语言建模中具有学习长距离依赖关系的潜力,但受到固定长度上下文的限制。我们提出了一种新的神经架构——Transformer-XL,该架构能够在不破坏时间连贯性的情况下学习超出固定长度的依赖关系。它由段落级别的循环机制和一种新颖的位置编码方案组成。我们的方法不仅能够捕捉更长距离的依赖关系,还解决了上下文碎片化问题。因此,与RNN相比,Transformer-XL学习到的依赖关系长度增加了80%,而与普通的Transformer相比则增加了450%;在短序列和长序列上均表现出更好的性能,并且在评估过程中比普通Transformer快1800多倍。值得注意的是,我们在enwiki8数据集上的bpc(每字符位数)/困惑度达到了0.99的新纪录,在text8数据集上达到1.08,在WikiText-103数据集上达到18.3,在One Billion Word数据集上达到21.8,在Penn Treebank数据集上达到54.5(未进行微调)。仅在WikiText-103数据集上训练时,Transformer-XL就能够生成合理连贯、包含数千个标记的新文本文章。我们的代码、预训练模型和超参数在TensorFlow和PyTorch中均可获取。