2 个月前

学习记忆罕见事件

Łukasz Kaiser; Ofir Nachum; Aurko Roy; Samy Bengio
学习记忆罕见事件
摘要

尽管最近取得了进展,但增强记忆的深度神经网络在终身学习和单次学习方面仍存在局限性,尤其是在记住罕见事件时。我们提出了一种大规模的终身记忆模块,用于深度学习。该模块利用快速近邻算法提高效率,因此可以扩展到较大的内存容量。除了近邻查询外,该模块完全可微分,并且无需额外监督即可进行端到端训练。它以终身方式运行,即在训练过程中无需重置。我们的记忆模块可以轻松添加到任何监督神经网络的任意部分。为了展示其多功能性,我们将该模块添加到了多种网络中,从用于图像分类的简单卷积网络到深层序列到序列模型和递归-卷积模型。在所有情况下,增强后的网络获得了记住和进行终身单次学习的能力。我们的模块能够记住过去数万步中展示的训练样本,并能从中成功泛化。我们在Omniglot数据集上为单次学习设定了新的最先进水平,并首次展示了在大规模机器翻译任务中递归神经网络的终身单次学习能力。