HyperAIHyperAI

Command Palette

Search for a command to run...

多尺度神经语言模型分析

Stephen Merity; Nitish Shirish Keskar; Richard Socher

摘要

许多领先的语言模型方法引入了新颖、复杂和专门化的架构。我们基于现有的基于LSTM(长短期记忆网络)和QRNN(准循环神经网络)的最先进词级语言模型,将其扩展到更大的词汇表以及字符级别的粒度。在适当调优后,LSTM和QRNN分别在字符级(Penn Treebank、enwik8)和词级(WikiText-103)数据集上取得了最先进的结果。这些结果仅使用单个现代GPU在12小时(WikiText-103)到2天(enwik8)内获得。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供