
摘要
最近,在语言建模领域通过使用深度神经网络取得了显著进展。然而,在实际应用中,大规模神经语言模型容易出现过拟合现象。本文提出了一种简单而高效的对抗训练机制,用于正则化神经语言模型。该方法的核心思想是在训练模型时向输出嵌入层引入对抗噪声。我们证明了最优的对抗噪声具有简单的闭式解,从而使得我们可以开发出一种简单且时间效率高的算法。理论上,我们证明了我们的对抗机制有效地促进了嵌入向量的多样性,有助于提高模型的鲁棒性。实证上,我们在Penn Treebank(PTB)和Wikitext-2数据集上的单模型语言建模结果中展示了我们的方法优于现有最佳结果,分别达到了46.01和38.07的测试困惑度分数。当应用于机器翻译时,我们的方法在WMT14英德翻译任务和IWSLT14德英翻译任务中提高了各种基于Transformer的翻译基线的BLEU分数。