2 个月前

兼收并蓄：结合神经机器翻译的最新进展

Mia Xu Chen; Orhan Firat; Ankur Bapna; Melvin Johnson; Wolfgang Macherey; George Foster; Llion Jones; Niki Parmar; Mike Schuster; Zhifeng Chen; Yonghui Wu; Macduff Hughes

查看论文详情

摘要

过去一年见证了机器翻译（MT）领域中序列到序列（seq2seq）建模的迅速进展。传统的基于循环神经网络（RNN）的机器翻译方法首先被卷积序列到序列模型超越，随后又被最近提出的Transformer模型超越。这些新的方法每一种都包含了一种基本架构以及一系列原则上可以应用于其他序列到序列架构的建模和训练技术。在本文中，我们从两个方面对这些新架构及其伴随的技术进行了拆解分析。首先，我们识别出几种关键的建模和训练技术，并将其应用于RNN架构，从而得到了一个新的RNMT+模型，在WMT'14英语到法语和英语到德语的基准任务上超过了这三种基本架构。其次，我们分析了每种基本序列到序列架构的特性，并设计了新的混合架构，旨在结合它们的优势。我们的混合模型在两个基准数据集上取得了进一步的改进，表现优于RNMT+模型。