1 个月前

循环高速公路网络

Julian Georg Zilly; Rupesh Kumar Srivastava; Jan Koutník; Jürgen Schmidhuber

摘要

许多顺序处理任务需要从一个步骤到下一个步骤的复杂非线性转换函数。然而，即使使用长短期记忆（LSTM）网络，具有“深层”转换函数的递归神经网络仍然难以训练。我们基于盖尔圆定理（Gersgorin's circle theorem）引入了一种新的递归网络理论分析方法，该方法阐明了若干建模和优化问题，并加深了我们对LSTM单元的理解。基于这一分析，我们提出了循环高速公路网络（Recurrent Highway Networks），该架构扩展了LSTM结构，允许步间转换深度大于一。多项语言建模实验表明，所提出的架构能够生成强大且高效的模型。在Penn Treebank语料库上，仅将转换深度从1增加到10，使用相同数量的参数即可将词级困惑度从90.6降低至65.4。在更大规模的Wikipedia字符预测数据集（text8和enwik8）上，循环高速公路网络超越了所有先前的结果，达到了每字符1.27比特的熵值。