2 个月前

卷积编码器模型在神经机器翻译中的应用

Jonas Gehring; Michael Auli; David Grangier; Yann N. Dauphin

摘要

当前神经机器翻译的主要方法依赖于双向LSTM（长短期记忆网络）来编码源句子。本文提出了一种基于连续卷积层的更快、更简单的架构。该架构允许同时对整个源句子进行编码，而循环网络则受制于时间依赖性，计算过程较为受限。在WMT'16 英语-罗马尼亚语翻译任务中，我们达到了与现有最先进方法相当的准确率，并且在WMT'15 英语-德语任务上超越了多个最近发布的成果。我们的模型在WMT'14 英语-法语翻译任务中的准确率几乎与一个非常深的LSTM设置相同。与强大的双向LSTM基线相比，我们的卷积编码器在保持相同或更高准确率的情况下，将CPU解码速度提高了两倍以上。