
摘要
循环神经网络(RNNs)在近期深度学习的许多发展中处于前沿地位。然而,这些模型的一个主要难题是它们倾向于过拟合,而研究表明在循环层中应用dropout方法会失效。最近,在贝叶斯建模与深度学习交汇领域的研究成果为常见的深度学习技术如dropout提供了贝叶斯解释。将dropout基于近似贝叶斯推理进行理论基础的奠定,暗示了可以扩展这些理论结果,从而为在RNN模型中使用dropout提供新的见解。我们在LSTM和GRU模型中应用了这种新的基于变分推断的dropout技术,并在语言模型和情感分析任务上对其进行了评估。新方法的表现优于现有技术,并且据我们所知,在使用Penn Treebank数据集的语言模型单模型状态下取得了最佳成绩(测试困惑度为73.4)。这进一步丰富了我们在深度学习中使用的变分工具库。