2 个月前

通过平均注意力网络加速神经变换器

Biao Zhang; Deyi Xiong; Jinsong Su

摘要

通过并行化的注意力网络，神经变换器（Transformer）在训练过程中非常快速。然而，由于其自回归架构和解码器中的自注意力机制，解码过程变得缓慢。为了解决这一问题，我们提出了一种平均注意力网络作为神经变换器解码器中自注意力网络的替代方案。该平均注意力网络由两层组成，其中一层是建模前序位置依赖关系的平均层，另一层是堆叠在平均层之上的门控层，以增强所提出的注意力网络的表达能力。我们将该网络应用于神经变换器的解码部分，以替换原有的目标端自注意力模型。借助掩码技巧和动态规划，我们的模型使得神经变换器在几乎不影响训练时间和翻译性能的情况下，解码速度比原版提高了四倍以上。我们在WMT17翻译任务上进行了一系列实验，在6种不同的语言对上获得了稳健且一致的解码加速效果。