2 个月前

UnICORNN：一种用于学习非常长时间依赖的循环模型

T. Konstantin Rusch; Siddhartha Mishra

摘要

设计能够准确处理长时间依赖序列输入的循环神经网络（RNN）非常具有挑战性，主要是由于梯度爆炸和梯度消失问题。为了解决这一难题，我们提出了一种新型的RNN架构，该架构基于对描述振荡器网络的哈密顿系统二阶常微分方程进行结构保持离散化的方法。所得到的RNN不仅速度快、可逆（在时间上）、内存效率高，而且我们推导出了隐藏状态梯度的严格界，以证明梯度爆炸和梯度消失问题得到了缓解。一系列实验表明，所提出的RNN在处理具有（非常）长时间依赖的学习任务时，提供了最先进的性能。