HyperAI超神经

在2025年NeurIPS大会上，由通义千问（Qwen）团队发表的论文《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》荣获最佳论文奖。该研究系统性地探索了注意力门控（Attention Gating）机制在大语言模型中的作用，揭示了一个“小技巧”如何带来训练稳定性提升、支持更大学习率以及更优的可扩展性。论文核心发现：在Transformer的缩放点积注意力（SDPA）输出端添加一个门控模块（G1），能显著改善模型性能。该门控通过Sigmoid激活函数生成0到1之间的调节系数，对注意力输出进行逐元素乘法调制，实现输入依赖的稀疏化和非线性控制。实验证明，这种配置在多头注意力中优于其他位置（如Q、K、V投影后或输出前）的门控。研究还发现，门控能有效缓解“注意力塌缩”（Attention Sink）问题——即模型在深层中过度关注序列首 token，导致其余信息被忽略。通过抑制极端激活，门控使训练更稳定，避免损失突增，从而支持更高学习率，提升优化效率。更关键的是，该方法为长上下文建模提供了新路径。研究提出“三阶段训练策略”：先将RoPE（旋转位置编码）基频从10K扩展至1M，使位置编码在长序列中更平滑；再用32K长度数据继续训练；最后通过YaRN技术无须重训即可将上下文扩展至128K。SDPA输出门控模型在长序列下表现远超基线，且对RoPE和YaRN的修改不敏感，说明其不依赖于人为设计的注意力集中模式。此外，研究强调门控应为每个注意力头独立学习，共享门控会削弱头的特异性。在激活函数选择上，Sigmoid优于SiLU；在调制方式上，乘法优于加法。整体实现仅带来不到2%的延迟开销，极具工程实用性。该论文不仅为大模型训练提供了可立即应用的实操指南，更系统性地解释了门控为何有效，填补了领域内长期存在的理论空白。Qwen团队将成果公开，推动了AI社区的开放协作。这一工作标志着AI研究正从“盲目堆算力”转向“精调机制”，是通往更稳定、更高效、更可解释AI系统的重要一步。

相关链接

相关链接

相关链接

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制

Command Palette

通义千问揭秘注意力门控：NeurIPS 2025最佳论文的系统性突破

相关链接

Command Palette

通义千问揭秘注意力门控：NeurIPS 2025最佳论文的系统性突破

相关链接

Command Palette

通义千问揭秘注意力门控：NeurIPS 2025最佳论文的系统性突破

相关链接

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制