Qwen3.5引爆争议:注意力机制的未来何去何从?
2026年2月16日,阿里巴巴通义实验室发布新一代基础模型Qwen3.5–397B-A17B,标志着中国大模型竞赛进入新阶段。该模型为3970亿参数的混合专家(MoE)架构,每token仅激活170亿参数,显著提升计算效率。其API版本名为Qwen3.5-Plus,配备100万token上下文窗口、内置工具与自适应工具调用能力。 Qwen3.5的核心创新在于“混合注意力架构”:在Transformer块中以约3:1的比例交替使用线性注意力(Gated DeltaNet)与全注意力机制。Gated DeltaNet源自Mamba2改进,结合门控衰减与Delta规则,有效缓解注意力“黑洞”问题,提升训练稳定性。该设计使模型在处理长序列时效率远超传统全注意力结构。 在训练层面,Qwen3.5采用“大规模代理强化学习”(Scalable RL at Agent Scale),在百万级代理构成的复杂任务环境中进行训练,强化其在多步、长周期任务中的适应能力,呼应MiniMax Forge与智谱Slime的思路。 模型实现原生多模态融合,不再依赖独立视觉分支,通过早期融合训练实现文本与视觉能力的统一。在视觉任务上表现突出:MMMU达85.0(Qwen3-VL为80.6),MathVision达88.6,OmniDocBench达90.8,OSWorld-Verified为62.2,AndroidWorld为66.8,ZEROBench达12分,均处领先水平。 语言支持扩展至201种语言与方言,为目前开源模型中最广。在推理与数学方面,AIME 2026得分为91.3,HMMT为94.8,虽具竞争力但未达顶尖。但在指令遵循方面表现惊艳:IFBench达76.5,MultiChallenge达67.6,均超越GPT-5.2与Claude。 在代理能力测试中,Qwen3.5在Tau2-Bench得86.7(仅次于Claude的91.6),MCPMark为46.1,BrowseComp则因策略不同呈现69.0至78.6的差异,凸显当前评估中“工程框架”对结果影响显著。编码能力方面,SWE-bench Verified为76.4,与K2.5和Gemini 3 Pro持平,但落后于GPT-5.2与Claude;SecCodeBench达68.3,与GPT-5.2和Claude并列。 总体来看,Qwen3.5并非单项冠军,但整体均衡性极强,尤其在指令理解与多模态融合上领先。其397B规模远小于Qwen3-Max-Thinking(1T+),却全面超越,体现架构优化的显著成效。 当前大模型竞争焦点已从“MoE vs 密集”转向“注意力机制”之争:Qwen3.5与Kimi K2.5采用3:1混合线性-全注意力,GLM-5引入稀疏注意力与MLA,MiniMax则采用全线性架构。DeepSeek的MLA与DSA技术广泛影响,而Qwen的Gated DeltaNet则开辟新路径。 评估体系也全面转向代理任务:SWE-bench、BrowseComp、TAU2-Bench、MCPMark等成为核心指标,传统对话测试已非主流。Qwen3.5仅首发397B-A17B版本,暗示后续将推出更多尺寸,未来小规模版本是否延续混合架构值得关注。此次发布,标志着Qwen3-Next的架构预演已成功落地为生产级模型。
