
摘要
神经机器翻译(NMT)提供了一种新的翻译方法,其潜在复杂度可能低于统计方法。然而,为了达到具有竞争力的性能,NMT 模型需要非常庞大。在本文中,我们探讨了将知识蒸馏方法(Bucila 等,2006;Hinton 等,2015)应用于 NMT 问题的可能性,这些方法已在其他领域成功用于减少神经模型的规模。我们证明了标准的知识蒸馏方法在词级预测上对 NMT 是有效的,并且还引入了两种新的序列级知识蒸馏版本,进一步提高了性能。令人惊讶的是,这些新方法似乎消除了对束搜索的需求(即使在原始教师模型上应用也是如此)。我们的最佳学生模型比最先进的教师模型运行速度快 10 倍,且性能损失很小。与未使用知识蒸馏训练的基线模型相比,该学生模型的表现也显著更好:使用贪婪解码时提高了 4.2 BLEU 分数,使用束搜索时提高了 1.7 BLEU 分数。在知识蒸馏的基础上应用权重剪枝技术,结果得到的学生模型参数量比原始教师模型减少了 13 倍,BLEU 分数仅下降了 0.4。