HyperAIHyperAI

Command Palette

Search for a command to run...

基于更深层自注意力机制的字符级语言模型

Rami Al-Rfou Dokook Choe Noah Constant Mandy Guo Llion Jones

摘要

长短期记忆网络(LSTMs)和其他递归神经网络(RNN)变体在字符级语言建模中表现出色。这些模型通常使用截断时间反向传播进行训练,人们普遍认为它们的成功源于其能够记住长期上下文的能力。在本文中,我们展示了具有固定上下文的深度(64层)变换器模型显著优于RNN变体,在两个流行的基准测试中达到了最先进的水平:text8上的每字符1.13比特和enwik8上的每字符1.06比特。为了在如此深的网络中获得良好的结果,我们证明了在中间网络层和中间序列位置添加辅助损失的重要性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供