Command Palette
Search for a command to run...

摘要
门控机制已被广泛应用于各类模型中,从早期的LSTM和高速公路网络(Highway Networks),到近期的状态空间模型、线性注意力机制,以及传统的Softmax注意力机制。然而,现有文献很少系统性地探讨门控机制的具体作用。在本工作中,我们通过一系列全面的实验,系统地研究了引入门控机制的Softmax注意力变体。具体而言,我们在一个包含3.5万亿标记(tokens)的数据集上,对150亿参数的混合专家(Mixture-of-Experts, MoE)模型的30种变体,以及17亿参数的密集模型进行了全面对比分析。我们的核心发现是:对缩放点积注意力(Scaled Dot-Product Attention, SDPA)输出后施加一个头级别的Sigmoid门控,这一简单修改能够持续提升模型性能。该改进不仅增强了训练稳定性,允许使用更大的学习率,并显著改善了模型的可扩展性。通过对比多种门控位置与计算变体,我们发现该方法的有效性主要归因于两个关键因素:(1)在Softmax注意力中的低秩映射上引入非线性;(2)采用依赖于查询(query-dependent)的稀疏门控得分,对SDPA的输出进行调制。值得注意的是,我们发现这种稀疏门控机制能够有效缓解激活值爆炸(massive activation)问题,抑制注意力“黑洞”(attention sink)现象,并显著提升模型在长上下文外推任务中的表现。此外,我们已公开相关代码(https://github.com/qiuzh20/gated_attention)与模型权重(https://huggingface.co/QwQZh/gated_attention),以促进后续研究。值得一提的是,该最有效的SDPA输出门控机制已被应用于Qwen3-Next系列模型中(https://huggingface.co/collections/Qwen/qwen3-next)。