1 个月前

通过连续缓存改进神经语言模型

Edouard Grave; Armand Joulin; Nicolas Usunier

摘要

我们提出了一种扩展神经网络语言模型的方法，以使其预测适应最近的历史。我们的模型是记忆增强网络的一种简化版本，该网络将过去的隐藏激活存储为记忆，并通过当前隐藏激活与这些记忆之间的点积来访问它们。这种机制非常高效，并且可以扩展到非常大的记忆容量。此外，我们还探讨了神经网络中外部记忆的使用与基于计数的语言模型中缓存模型的使用之间的联系。我们在多个语言模型数据集上展示了我们的方法显著优于近期的记忆增强网络。