1 个月前

通过分段、注意力机制和预测未来改进神经语言模型

Hongyin Luo; Lan Jiang; Yonatan Belinkov; James Glass

摘要

常见的语言模型通常根据上下文预测下一个词。在本研究中，我们提出了一种通过学习对齐给定上下文和后续短语来改进语言建模的方法。该模型不需要任何短语切分的语法学注释。相反，我们定义了句法高度和短语切分规则，使模型能够在无监督学习的方式下自动诱导短语、识别其特定任务的头部，并生成短语嵌入（phrase embeddings）。由于用于短语诱导和上下文-短语对齐的是一个独立模块，因此我们的方法可以轻松应用于具有不同网络架构的语言模型，而无需对底层语言建模网络进行任何修改。实验结果表明，我们的模型在多个数据集上优于几个强大的基线模型。我们在Wikitext-103数据集上达到了17.4的困惑度（perplexity），创造了新的最先进性能。此外，对短语诱导模块输出的可视化显示，我们的模型能够在没有任何注释的情况下学习近似的短语级结构知识。