
摘要
我们介绍了乘法长短期记忆网络(mLSTM),这是一种用于序列建模的递归神经网络架构,结合了长短期记忆(LSTM)和乘法递归神经网络的架构。mLSTM 的特点是能够为每个可能的输入提供不同的递归转换函数,我们认为这使得它在自回归密度估计中更具表达能力。通过一系列字符级语言建模任务的实证研究,我们证明了 mLSTM 在性能上优于标准 LSTM 及其深层变体。在本文的这一版本中,我们对 mLSTM 进行了正则化处理,使其在 text8 数据集上的字符级压缩率达到 1.27 比特/字符,在 Hutter Prize 数据集上的字符级压缩率达到 1.24 比特/字符。此外,我们还应用了一个纯粹基于字节级的 mLSTM 到 WikiText-2 数据集上,实现了 1.26 比特/字符的字符级熵,对应的词级困惑度为 88.8,这一结果与在同一任务上经过类似正则化处理的词级 LSTM 相当。