
摘要
一种有效生成大量平行语料以训练改进型神经机器翻译(NMT)系统的方法是利用目标语言单语数据的反向翻译(back-translation)。然而,标准的反向翻译方法因翻译模型在训练过程中难以区分真实平行语料与合成平行语料,导致无法高效利用现有海量的单语数据。为解决此问题,已有研究采用标签(tagging)或门控机制(gates),使翻译模型能够识别数据来源,从而提升标准反向翻译的效果,并支持在原本表现不佳的语言对上实施迭代反向翻译。在本研究中,我们提出将反向翻译视为一个领域自适应(domain adaptation)问题,从而无需显式标签。所提出的策略——无标签反向翻译(tag-less back-translation)——将合成平行语料视为域外数据(out-of-domain data),而真实平行语料则视为域内数据(in-domain data)。通过预训练与微调的联合策略,模型在训练过程中能够更高效地从这两类数据中学习。实验结果表明,该方法在低资源场景下的英越(English-Vietnamese)与英德(English-German)神经机器翻译任务中,均显著优于标准反向翻译和带标签的反向翻译方法。