通义千问揭秘注意力门控:NeurIPS 2025最佳论文的系统性突破
在2025年NeurIPS大会上,由通义千问(Qwen)团队发表的论文《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》荣获最佳论文奖。该研究系统性地探索了注意力门控(Attention Gating)机制在大语言模型中的作用,揭示了一个“小技巧”如何带来训练稳定性提升、支持更大学习率以及更优的可扩展性。 论文核心发现:在Transformer的缩放点积注意力(SDPA)输出端添加一个门控模块(G1),能显著改善模型性能。该门控通过Sigmoid激活函数生成0到1之间的调节系数,对注意力输出进行逐元素乘法调制,实现输入依赖的稀疏化和非线性控制。实验证明,这种配置在多头注意力中优于其他位置(如Q、K、V投影后或输出前)的门控。 研究还发现,门控能有效缓解“注意力塌缩”(Attention Sink)问题——即模型在深层中过度关注序列首 token,导致其余信息被忽略。通过抑制极端激活,门控使训练更稳定,避免损失突增,从而支持更高学习率,提升优化效率。 更关键的是,该方法为长上下文建模提供了新路径。研究提出“三阶段训练策略”:先将RoPE(旋转位置编码)基频从10K扩展至1M,使位置编码在长序列中更平滑;再用32K长度数据继续训练;最后通过YaRN技术无须重训即可将上下文扩展至128K。SDPA输出门控模型在长序列下表现远超基线,且对RoPE和YaRN的修改不敏感,说明其不依赖于人为设计的注意力集中模式。 此外,研究强调门控应为每个注意力头独立学习,共享门控会削弱头的特异性。在激活函数选择上,Sigmoid优于SiLU;在调制方式上,乘法优于加法。整体实现仅带来不到2%的延迟开销,极具工程实用性。 该论文不仅为大模型训练提供了可立即应用的实操指南,更系统性地解释了门控为何有效,填补了领域内长期存在的理论空白。Qwen团队将成果公开,推动了AI社区的开放协作。这一工作标志着AI研究正从“盲目堆算力”转向“精调机制”,是通往更稳定、更高效、更可解释AI系统的重要一步。
