
摘要
神经机器翻译(NMT)模型通常使用固定词汇表进行操作,但翻译是一个开放词汇问题。先前的研究通过回退到词典来解决未登录词的翻译问题。在本文中,我们介绍了一种更简单且更有效的方法,通过将罕见词和未知词编码为子词单元序列,使NMT模型具备开放词汇翻译的能力。这一方法基于这样的直觉:各种词类可以通过比单词更小的单元进行翻译,例如名字(通过字符复制或音译)、复合词(通过组合翻译)以及同源词和借词(通过音韵和形态转换)。我们讨论了不同词语切分技术的适用性,包括简单的字符n-gram模型和基于字节对编码压缩算法的切分方法,并通过实验证明,对于WMT 15英德和英俄翻译任务,子词模型分别比回退词典基线提高了1.1和1.3个BLEU分数。