
摘要
我们评估了三种以归一化为核心的简单改进方法,以提升Transformer的训练效果。首先,我们表明,采用预归一化残差连接(PreNorm)并配合较小的初始化策略,可实现无需预热(warmup-free)、基于验证集的训练,并支持较大的学习率。其次,我们提出一种仅含单个缩放参数的ℓ₂归一化方法(ScaleNorm),该方法能够加速训练过程并提升模型性能。最后,我们再次验证了将词嵌入归一化为固定长度(FixNorm)的有效性。在基于TED Talks语料库的五个低资源翻译任务上,上述改进均能保证模型稳定收敛,平均相比当前最优的双语基线模型提升1.1 BLEU,且在IWSLT'15英语-越南语任务上创下32.8的新高BLEU得分。我们观察到,模型性能曲线更为陡峭,梯度范数更加稳定,并且激活值的缩放与解码器深度之间呈现出线性关系。令人意外的是,在高资源场景(WMT'14英语-德语)下,ScaleNorm与FixNorm仍保持竞争力,而PreNorm则导致性能下降。