2 个月前

无监督统计机器翻译

Mikel Artetxe; Gorka Labaka; Eneko Agirre
无监督统计机器翻译
摘要

虽然现代机器翻译依赖于大规模平行语料库,但近期的一些研究已经成功地仅从单语语料库训练神经机器翻译(NMT)系统(Artetxe等人,2018c;Lample等人,2018)。尽管这种方法在低资源环境下具有潜在优势,现有的系统仍远落后于有监督的系统,限制了其实际应用价值。本文提出了一种基于短语统计机器翻译(SMT)的替代方法,显著缩小了与有监督系统的差距。我们的方法利用了SMT的模块化架构:首先通过跨语言嵌入映射从单语语料库中生成短语表,然后将其与n元语言模型结合,并通过无监督的MERT变体微调超参数。此外,迭代回译进一步提高了结果,在WMT 2014英德和英法翻译任务中分别达到了14.08和26.22的BLEU分数,比之前的无监督系统提高了7-10个BLEU点,并将与有监督SMT(使用Europarl数据集训练的Moses系统)之间的差距缩小到2-5个BLEU点。我们的实现代码可在https://github.com/artetxem/monoses 获取。