1 个月前

基于更深层自注意力机制的字符级语言模型

Rami Al-Rfou; Dokook Choe; Noah Constant; Mandy Guo; Llion Jones
基于更深层自注意力机制的字符级语言模型
摘要

长短期记忆网络(LSTMs)和其他递归神经网络(RNN)变体在字符级语言建模中表现出色。这些模型通常使用截断时间反向传播进行训练,人们普遍认为它们的成功源于其能够记住长期上下文的能力。在本文中,我们展示了具有固定上下文的深度(64层)变换器模型显著优于RNN变体,在两个流行的基准测试中达到了最先进的水平:text8上的每字符1.13比特和enwik8上的每字符1.06比特。为了在如此深的网络中获得良好的结果,我们证明了在中间网络层和中间序列位置添加辅助损失的重要性。