2 个月前

无监督神经机器翻译的无监督统计机器翻译初始化

Benjamin Marie; Atsushi Fujita
无监督神经机器翻译的无监督统计机器翻译初始化
摘要

近期的研究在完全无监督的方式下训练神经机器翻译(NMT)系统方面取得了显著成果,这些研究采用了专门设计的新架构,仅依赖单语语料库。本文中,我们提出将无监督神经机器翻译(UNMT)定义为利用合成双语文本数据进行监督训练的NMT。我们的方法可以直接应用现有的为有监督NMT设计的最先进架构,只需在训练过程中用合成双语文本数据替代人工制作的双语文本数据即可。我们建议使用无监督统计机器翻译(USMT)生成的合成双语文本数据来初始化UNMT的训练。随后,通过回译技术逐步改进UNMT系统。初步实验表明,我们的方法在WMT16德英新闻翻译任务上实现了新的无监督机器翻译最先进水平,无论是在德译英还是英译德方向上均表现优异。