2 个月前

线性时间的神经机器翻译

Nal Kalchbrenner; Lasse Espeholt; Karen Simonyan; Aaron van den Oord; Alex Graves; Koray Kavukcuoglu
线性时间的神经机器翻译
摘要

我们提出了一种用于处理序列的新颖神经网络。ByteNet 是一种一维卷积神经网络,由两部分组成:一部分用于编码源序列,另一部分用于解码目标序列。这两部分网络通过将解码器堆叠在编码器之上并保持序列的时间分辨率来连接。为了解决源序列和目标序列长度不同的问题,我们引入了一种高效的机制,使得解码器可以动态地在编码器的表示上展开。ByteNet 在卷积层中使用扩张(dilation)技术来扩大其感受野。由此产生的网络具有两个核心特性:其运行时间与序列长度呈线性关系,并且避免了过度记忆的需求。ByteNet 解码器在字符级语言建模方面达到了最先进的性能,并且超过了以往基于循环网络的最佳结果。此外,ByteNet 在英德机器翻译任务的 WMT 翻译任务中也取得了最先进的性能,超越了基于循环网络和注意力池化的类似神经翻译模型,这些模型的运行时间为二次方复杂度。我们发现,表示中的潜在对齐结构反映了预期的标记对齐情况。