
摘要
本文介绍了悉尼大学在WMT 2019共享新闻翻译任务中的提交情况。我们参与了芬兰语到英语的翻译方向,并在所有参与者中获得了最高的BLEU(33.0)分数。我们的系统基于自注意力机制的Transformer网络,并整合了学术研究中最新的有效策略(例如,BPE、回译、多特征数据选择、数据增强、贪婪模型集成、重排序、ConMBR系统组合和后处理)。此外,我们提出了一种新颖的数据增强方法——循环翻译(Cycle Translation)以及一种数据混合策略——大/小并行构建(Big/Small parallel construction),以充分利用合成语料库。大量实验表明,加入上述技术可以持续提高BLEU分数,最佳结果比基线模型(使用原始并行语料库训练的Transformer集成模型)高出约5.3个BLEU分数,达到了当前最先进的性能。