
摘要
我们提出 Bi-SimCut:一种简单但高效的神经机器翻译(NMT)训练策略,可显著提升翻译性能。该策略包含两个阶段:双向预训练与单向微调。两个阶段均采用 SimCut——一种简单的正则化方法,通过强制原始句子与截断句子对输出分布之间的一致性来增强模型鲁棒性。与依赖回译扩充数据或引入大规模预训练模型的方法不同,Bi-SimCut 在五个翻译基准测试中均取得了优异表现(数据规模从 16 万到 2020 万不等):在 IWSLT14 数据集上,en→de 的 BLEU 得分为 31.16,de→en 为 38.37;在 WMT14 数据集上,en→de 为 30.78,de→en 为 35.15;在 WMT17 数据集上,zh→en 达到 27.17。需要说明的是,SimCut 并非全新方法,而是对 Shen 等人(2020)提出的 Cutoff 方法进行简化与适配后应用于 NMT 的版本,可视为一种基于扰动的正则化方法。鉴于 SimCut 与 Bi-SimCut 具备普适性与简洁性,我们认为二者可作为未来 NMT 研究中强有力的基线方法。