
摘要
神经机器翻译(NMT)旨在利用神经网络解决机器翻译(MT)问题,并在近年来展示了令人鼓舞的结果。然而,现有的大多数NMT模型都是浅层的,单个NMT模型与最佳传统MT系统之间仍存在性能差距。在这项工作中,我们基于深度长短期记忆(LSTM)网络引入了一种新的线性连接类型,称为快速前向连接(fast-forward connections),以及一种交错的双向架构来堆叠LSTM层。快速前向连接在传播梯度和构建深度为16的深层拓扑中起着至关重要的作用。在WMT'14英法翻译任务中,我们使用单一注意力模型达到了BLEU=37.7,比相应的单一浅层模型高出6.2个BLEU点。这是首次单个NMT模型达到最先进水平,并且比最佳的传统模型高出0.7个BLEU点。即使不使用注意力机制,我们仍然可以达到BLEU=36.3。经过对未知词的特殊处理和模型集成后,我们在该任务上获得了迄今为止报告的最佳分数,即BLEU=40.4。我们的模型还在更具挑战性的WMT'14英德翻译任务中得到了验证。