HyperAIHyperAI

Command Palette

Search for a command to run...

旋转记忆单元

["name": "Rumen Dangovski*" "affiliation": "Massachusetts Institute of Technology" "email": "[email protected]" "name": "Li Jing*" "affiliation": "Massachusetts Institute of Technology" "email": "[email protected]" "name": "Marin Solja\u010di\u0107" "affiliation": "Massachusetts Institute of Technology" "email": "[email protected]"]

摘要

单元演化矩阵和联想记忆的概念已经推动了循环神经网络(Recurrent Neural Networks, RNN)在各种序列任务中达到了最先进的性能。然而,RNN在操纵长期记忆方面仍存在一定的局限性。为了克服这一弱点,最成功的RNN应用通常采用外部技术,如注意力机制。本文提出了一种新的RNN模型,该模型统一了当前最先进的方法:旋转记忆单元(Rotational Unit of Memory, RUM)。RUM的核心在于其旋转操作,这是一种自然的酉矩阵(unitary matrix),能够通过克服梯度消失和梯度爆炸问题,赋予架构学习长期依赖的能力。此外,旋转单元还充当联想记忆的功能。我们对我们的模型进行了合成记忆、问答和语言建模任务的评估。RUM完全学会了复制记忆任务,并在回忆任务中改进了最先进的结果。在bAbI问答任务中,RUM的表现与具有注意力机制的模型相当。我们还在字符级Penn Treebank(PTB)任务中将最先进的结果提升至1.189比特每字符(bits-per-character, BPC)损失,这表明RUM可以应用于实际的序列数据。我们在RNN核心构造上的普遍性设计,使得RUM成为语言建模、语音识别和机器翻译的一个有前景的方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供