2 个月前

卷积序列到序列学习

Jonas Gehring; Michael Auli; David Grangier; Denis Yarats; Yann N. Dauphin
卷积序列到序列学习
摘要

当前序列到序列学习的主流方法是通过循环神经网络将输入序列映射到可变长度的输出序列。我们提出了一种完全基于卷积神经网络的架构。与循环模型相比,该架构在训练过程中可以对所有元素进行完全并行计算,优化也更为容易,因为非线性单元的数量是固定的,且与输入长度无关。我们使用门控线性单元(Gated Linear Units)来简化梯度传播,并为每个解码器层配备了一个独立的注意力模块。我们在WMT'14英德翻译和WMT'14英法翻译任务中,以快一个数量级的速度(无论是在GPU还是CPU上)超越了Wu等人(2016)提出的深度LSTM模型的准确性。