1 个月前

多尺度神经语言模型分析

Stephen Merity; Nitish Shirish Keskar; Richard Socher
多尺度神经语言模型分析
摘要

许多领先的语言模型方法引入了新颖、复杂和专门化的架构。我们基于现有的基于LSTM(长短期记忆网络)和QRNN(准循环神经网络)的最先进词级语言模型,将其扩展到更大的词汇表以及字符级别的粒度。在适当调优后,LSTM和QRNN分别在字符级(Penn Treebank、enwik8)和词级(WikiText-103)数据集上取得了最先进的结果。这些结果仅使用单个现代GPU在12小时(WikiText-103)到2天(enwik8)内获得。