
摘要
我们将语言模型构建为一个矩阵分解问题,并证明了基于Softmax的模型(包括大多数神经语言模型)的表达能力受到Softmax瓶颈的限制。鉴于自然语言具有高度的上下文依赖性,这进一步表明在实际应用中,Softmax结合分布式词嵌入的方法并不具备足够的容量来建模自然语言。我们提出了一种简单而有效的方法来解决这一问题,并将Penn Treebank和WikiText-2数据集上的最新困惑度分别提升至47.69和40.68。所提出的这种方法在大规模1B Word数据集上也表现出色,其困惑度比基线模型提高了超过5.6个点。