1 个月前

通过解码过去改进语言模型

Siddhartha Brahma

摘要

高度正则化的长短期记忆网络（LSTMs）在语言模型的多个基准数据集上取得了令人印象深刻的结果。我们提出了一种新的正则化方法，该方法基于使用预测的下一个词的概率分布来解码上下文中的最后一个词。这使得模型倾向于保留更多的上下文信息，从而提高其预测下一个词的能力。我们的过去解码正则化（Past Decode Regularization, PDR）方法在参数数量和训练时间方面几乎没有额外开销，使用单一softmax时，在Penn Treebank数据集上的词级困惑度达到55.6，在WikiText-2数据集上的词级困惑度达到63.5。此外，我们还展示了PDR与混合softmax结合使用时的效果提升，在这两个数据集上分别实现了53.8和60.5的词级困惑度。另外，我们的方法在字符级语言模型的Penn Treebank字符数据集上达到了1.169比特每字符的性能。这些结果在其各自的应用场景中均代表了新的最先进水平。