13 天前

语言模型不仅用于预训练:快速在线神经噪声信道建模

Shruti Bhosale, Kyra Yee, Sergey Edunov, Michael Auli
语言模型不仅用于预训练:快速在线神经噪声信道建模
摘要

在海量无标注数据上进行预训练,已成为提升多种自然语言处理(NLP)任务准确率的有效方法。另一方面,传统的机器翻译长期以来通过噪声信道建模(noisy channel modeling)利用无标注数据。近期研究发现,这一思想同样能够显著提升神经机器翻译(Neural Machine Translation, NMT)的性能。然而,若将传统的噪声信道建模直接应用于现代序列到序列模型,其推理速度比其他方法慢一个数量级。为解决这一问题,本文提出高效的近似方法,使得噪声信道推理的速度与强大集成模型相当,同时进一步提升翻译准确率。此外,实验表明,该噪声信道方法在WMT罗马尼亚语-英语翻译任务上取得了新的最优性能,超越了当前先进的预训练模型结果。