13 天前

合成器:重新思考Transformer模型中的自注意力机制

Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng
合成器:重新思考Transformer模型中的自注意力机制
摘要

点积自注意力机制被公认为当前先进Transformer模型的核心与不可或缺组成部分。然而,它真的必不可少吗?本文深入探究了基于点积的自注意力机制对Transformer模型性能的真实重要性与贡献。通过大量实验,我们发现:(1)随机对齐矩阵的表现出人意料地具有较强的竞争力;(2)从标记-标记(查询-键)交互中学习注意力权重虽然有一定帮助,但其实际重要性并未想象中那么关键。基于此,我们提出了一种名为\textsc{Synthesizer}的新模型,该模型通过不依赖标记间交互的方式学习合成的注意力权重。在实验中,我们首先表明,相较于原始Transformer模型,简单的Synthesizer在多种任务上均表现出极具竞争力的性能,涵盖机器翻译、语言建模、文本生成以及GLUE/SuperGLUE基准测试。当与点积注意力机制结合使用时,Synthesizer在所有测试中均持续优于标准Transformer模型。此外,我们将Synthesizer与动态卷积(Dynamic Convolutions)进行对比,结果表明,简单的随机Synthesizer不仅速度提升达60%,而且在困惑度(perplexity)上实现了相对3.5%的改进。最后,我们进一步验证,简单的因子分解型Synthesizer在仅需编码的任务中,性能甚至超越了Linformer模型。