2 个月前

主动记忆能否替代注意力?

Łukasz Kaiser; Samy Bengio
主动记忆能否替代注意力?
摘要

近年来,几种机制被成功应用于深度学习模型中,以使神经网络专注于其输入或记忆的选定部分。注意力机制在图像分类、图像描述生成、语音识别、生成模型以及算法任务的学习方面取得了显著改进,但对神经机器翻译的影响可能最为显著。最近,通过使用不集中于单一记忆部分而是并行且均匀地操作所有部分的替代机制,也获得了类似的改进。我们将这种机制称为“活跃记忆”(active memory),它在算法任务、图像处理和生成建模方面超越了注意力机制。然而,迄今为止,“活跃记忆”尚未在大多数自然语言处理任务上超过注意力机制,尤其是在机器翻译领域。本文分析了这一不足,并提出了一种扩展的“活跃记忆”模型,在神经机器翻译任务上与现有的注意力模型相匹配,并且在处理更长句子时具有更好的泛化能力。我们对该模型进行了研究,并解释了为什么之前的“活跃记忆”模型未能取得成功。最后,我们讨论了“活跃记忆”最能带来益处的情况以及何时选择注意力机制更为合适。

主动记忆能否替代注意力? | 最新论文 | HyperAI超神经