16 天前

将 BERT 融入神经机器翻译

Jinhua Zhu, Yingce Xia, Lijun Wu, Di He, Tao Qin, Wengang Zhou, Houqiang Li, Tie-Yan Liu
将 BERT 融入神经机器翻译
摘要

近期提出的BERT在多种自然语言理解任务中展现出强大的性能,例如文本分类、阅读理解等。然而,如何有效将BERT应用于神经机器翻译(NMT)仍缺乏充分探索。尽管BERT通常被用于下游语言理解任务的微调(fine-tuning),而非作为上下文嵌入(contextual embedding)使用,但在NMT任务中,我们初步研究表明,将BERT用作上下文嵌入的效果优于微调方式。这一发现促使我们进一步思考:如何在此方向上更有效地利用BERT提升NMT性能。为此,我们提出了一种名为BERT融合模型(BERT-fused model)的新算法。该方法首先利用BERT对输入序列提取语义表示,随后通过注意力机制将这些表示融合至NMT模型编码器与解码器的每一层中。我们在监督学习(包括句子级和文档级翻译)、半监督及无监督机器翻译任务上进行了实验,结果在七个基准数据集上均取得了当前最优(state-of-the-art)的性能表现。相关代码已公开,地址为:\url{https://github.com/bert-nmt/bert-nmt}。