
摘要
单元演化矩阵和联想记忆的概念已经推动了循环神经网络(Recurrent Neural Networks, RNN)在各种序列任务中达到了最先进的性能。然而,RNN在操纵长期记忆方面仍存在一定的局限性。为了克服这一弱点,最成功的RNN应用通常采用外部技术,如注意力机制。本文提出了一种新的RNN模型,该模型统一了当前最先进的方法:旋转记忆单元(Rotational Unit of Memory, RUM)。RUM的核心在于其旋转操作,这是一种自然的酉矩阵(unitary matrix),能够通过克服梯度消失和梯度爆炸问题,赋予架构学习长期依赖的能力。此外,旋转单元还充当联想记忆的功能。我们对我们的模型进行了合成记忆、问答和语言建模任务的评估。RUM完全学会了复制记忆任务,并在回忆任务中改进了最先进的结果。在bAbI问答任务中,RUM的表现与具有注意力机制的模型相当。我们还在字符级Penn Treebank(PTB)任务中将最先进的结果提升至1.189比特每字符(bits-per-character, BPC)损失,这表明RUM可以应用于实际的序列数据。我们在RNN核心构造上的普遍性设计,使得RUM成为语言建模、语音识别和机器翻译的一个有前景的方法。