HyperAI

9 个月前

Qwen3-Next在架构上实现了多项关键创新，核心亮点包括混合注意力机制（Hybrid Attention）与高稀疏性MoE（Mixture of Experts），显著提升了模型推理效率，同时保持高性能。混合注意力机制通过结合Gated DeltaNet与Gate SoftmaxAttention，构建了3:1的层级结构。其中，Gated DeltaNet采用线性时间复杂度O(n)的递归注意力机制，取代传统注意力中O(n²)的计算瓶颈。其核心在于通过可学习的门控机制（beta和g）动态更新键值记忆状态，实现对长序列上下文的高效建模。具体流程包括：输入经线性层生成QKVZ，其中Q经过缩放以稳定分布；随后通过一维因果卷积捕捉局部依赖，再利用递归状态更新实现低复杂度的注意力输出。该结构在保持性能的同时，大幅降低计算开销。与此同时，Qwen3-Next的MoE架构实现了极高的稀疏性，推理时仅激活3.7%的参数。其创新之处在于引入共享专家（Shared Expert），形成“双轨”设计：通用任务由共享专家处理，专业任务则由稀疏专家分工完成。这一机制类比于“全科医生+专科医生”的协作模式，提升了模型的鲁棒性与泛化能力。此外，Qwen3-Next还采用了MTP（多标记预测）结构，进一步加速推理过程。在归一化方面，创新性地使用零中心RMSNorm，通过初始化权重为0并采用(1.0 + weight)的乘法形式，有效抑制训练初期梯度爆炸或消失问题，增强训练稳定性。总体来看，Qwen3-Next通过混合注意力、高稀疏MoE与结构优化，实现了效率与性能的双重突破。其架构设计顺应了行业趋势——从Google的Infini-Attention到MiniMax的Lightning Attention，混合线性与标准注意力已成为大模型推理优化的主流方向。这一系列创新不仅推动了模型部署的可行性，也预示着未来大模型发展的关键路径。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

Command Palette

通义千问3重磅升级：混合注意力机制携手高稀疏性MoE架构，引领AI模型新范式

相关链接

Command Palette

通义千问3重磅升级：混合注意力机制携手高稀疏性MoE架构，引领AI模型新范式

相关链接

Command Palette

通义千问3重磅升级：混合注意力机制携手高稀疏性MoE架构，引领AI模型新范式

相关链接

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布