
摘要
许多领先的语言模型方法引入了新颖、复杂和专门化的架构。我们基于现有的基于LSTM(长短期记忆网络)和QRNN(准循环神经网络)的最先进词级语言模型,将其扩展到更大的词汇表以及字符级别的粒度。在适当调优后,LSTM和QRNN分别在字符级(Penn Treebank、enwik8)和词级(WikiText-103)数据集上取得了最先进的结果。这些结果仅使用单个现代GPU在12小时(WikiText-103)到2天(enwik8)内获得。
许多领先的语言模型方法引入了新颖、复杂和专门化的架构。我们基于现有的基于LSTM(长短期记忆网络)和QRNN(准循环神经网络)的最先进词级语言模型,将其扩展到更大的词汇表以及字符级别的粒度。在适当调优后,LSTM和QRNN分别在字符级(Penn Treebank、enwik8)和词级(WikiText-103)数据集上取得了最先进的结果。这些结果仅使用单个现代GPU在12小时(WikiText-103)到2天(enwik8)内获得。