17 天前

用于非自回归神经机器翻译的瞥视Transformer

Lihua Qian, Hao Zhou, Yu Bao, Mingxuan Wang, Lin Qiu, Weinan Zhang, Yong Yu, Lei Li
用于非自回归神经机器翻译的瞥视Transformer
摘要

近期关于非自回归神经机器翻译(Non-Autoregressive Neural Machine Translation, NAT)的研究致力于通过并行解码提升效率,同时不牺牲翻译质量。然而,现有的NAT方法要么在性能上仍逊于Transformer模型,要么需要多次解码过程,导致加速效果受限。为此,我们提出了凝视语言模型(Glancing Language Model, GLM),一种用于学习词元之间依赖关系的机制,以支持单次并行生成模型。基于GLM,我们进一步构建了凝视Transformer(Glancing Transformer, GLAT)用于机器翻译任务。GLAT仅需一次并行解码即可生成高质量翻译,实现8至15倍的加速。在多个WMT语言方向上的实验结果表明,GLAT显著优于此前所有单次解码的非自回归方法,其性能接近于标准Transformer模型,与之之间的BLEU得分差距仅为0.25至0.9分。