
摘要
处理可变长度的序列数据是许多应用领域面临的主要挑战,例如语音识别、语言建模、生成图像建模和机器翻译。本文通过提出一种新颖的递归神经网络(RNN)架构——快速-慢速RNN(Fast-SSlow RNN,简称FS-RNN),来应对这一挑战。FS-RNN 结合了多尺度RNN和深度转换RNN的优点,能够在不同的时间尺度上处理序列数据,并从一个时间步到下一个时间步学习复杂的转换函数。我们在两个字符级别的语言建模数据集——Penn Treebank和Hutter Prize Wikipedia上对FS-RNN进行了评估,分别将最先进的结果提升至1.19和1.25比特每字符(Bits-Per-Character,简称BPC)。此外,由两个FS-RNN组成的集成模型在Hutter Prize Wikipedia数据集上达到了1.20 BPC,优于目前最佳的压缩算法在BPC指标上的表现。我们还对FS-RNN的学习和网络动态进行了实证研究,解释了其相对于其他RNN架构性能提升的原因。我们的方法具有普遍性,因为任何类型的RNN单元都可以作为FS-RNN架构的构建模块,因此可以灵活应用于不同的任务。