HyperAIHyperAI

Command Palette

Search for a command to run...

通义千问3重磅升级:混合注意力机制携手高稀疏性MoE架构,引领AI模型新范式

Qwen3-Next在架构上实现了多项关键创新,核心亮点包括混合注意力机制(Hybrid Attention)与高稀疏性MoE(Mixture of Experts),显著提升了模型推理效率,同时保持高性能。 混合注意力机制通过结合Gated DeltaNet与Gate SoftmaxAttention,构建了3:1的层级结构。其中,Gated DeltaNet采用线性时间复杂度O(n)的递归注意力机制,取代传统注意力中O(n²)的计算瓶颈。其核心在于通过可学习的门控机制(beta和g)动态更新键值记忆状态,实现对长序列上下文的高效建模。具体流程包括:输入经线性层生成QKVZ,其中Q经过缩放以稳定分布;随后通过一维因果卷积捕捉局部依赖,再利用递归状态更新实现低复杂度的注意力输出。该结构在保持性能的同时,大幅降低计算开销。 与此同时,Qwen3-Next的MoE架构实现了极高的稀疏性,推理时仅激活3.7%的参数。其创新之处在于引入共享专家(Shared Expert),形成“双轨”设计:通用任务由共享专家处理,专业任务则由稀疏专家分工完成。这一机制类比于“全科医生+专科医生”的协作模式,提升了模型的鲁棒性与泛化能力。 此外,Qwen3-Next还采用了MTP(多标记预测)结构,进一步加速推理过程。在归一化方面,创新性地使用零中心RMSNorm,通过初始化权重为0并采用(1.0 + weight)的乘法形式,有效抑制训练初期梯度爆炸或消失问题,增强训练稳定性。 总体来看,Qwen3-Next通过混合注意力、高稀疏MoE与结构优化,实现了效率与性能的双重突破。其架构设计顺应了行业趋势——从Google的Infini-Attention到MiniMax的Lightning Attention,混合线性与标准注意力已成为大模型推理优化的主流方向。这一系列创新不仅推动了模型部署的可行性,也预示着未来大模型发展的关键路径。

相关链接