
摘要
双向编码器结合掩码语言模型(如BERT)在众多自然语言处理任务中取得成功,这一进展促使研究人员尝试将此类预训练模型引入神经机器翻译(NMT)系统。然而,现有融合预训练模型的方法通常较为复杂,且主要集中于BERT模型,缺乏对其他预训练模型在翻译性能上影响的系统性比较。本文证明,仅将经过专门设计且适用于双语场景的预训练语言模型(称为BiBERT)的输出(即上下文相关的词向量)直接作为NMT编码器的输入,即可实现当前最优的翻译性能。此外,我们还提出了一种随机层选择策略,并引入“双向翻译模型”的概念,以充分挖掘上下文嵌入的潜力。在不使用反向翻译(back translation)的情况下,我们的最优模型在IWSLT'14数据集上取得了30.45(英译德)和38.61(德译英)的BLEU分数,在WMT'14数据集上分别达到31.26(英译德)和34.94(德译英),均超越了所有已发表的现有结果。