HyperAI超神经

2026年2月16日，阿里巴巴通义实验室发布新一代基础模型Qwen3.5–397B-A17B，标志着中国大模型竞赛进入新阶段。该模型为3970亿参数的混合专家（MoE）架构，每token仅激活170亿参数，显著提升计算效率。其API版本名为Qwen3.5-Plus，配备100万token上下文窗口、内置工具与自适应工具调用能力。 Qwen3.5的核心创新在于“混合注意力架构”：在Transformer块中以约3:1的比例交替使用线性注意力（Gated DeltaNet）与全注意力机制。Gated DeltaNet源自Mamba2改进，结合门控衰减与Delta规则，有效缓解注意力“黑洞”问题，提升训练稳定性。该设计使模型在处理长序列时效率远超传统全注意力结构。在训练层面，Qwen3.5采用“大规模代理强化学习”（Scalable RL at Agent Scale），在百万级代理构成的复杂任务环境中进行训练，强化其在多步、长周期任务中的适应能力，呼应MiniMax Forge与智谱Slime的思路。模型实现原生多模态融合，不再依赖独立视觉分支，通过早期融合训练实现文本与视觉能力的统一。在视觉任务上表现突出：MMMU达85.0（Qwen3-VL为80.6），MathVision达88.6，OmniDocBench达90.8，OSWorld-Verified为62.2，AndroidWorld为66.8，ZEROBench达12分，均处领先水平。语言支持扩展至201种语言与方言，为目前开源模型中最广。在推理与数学方面，AIME 2026得分为91.3，HMMT为94.8，虽具竞争力但未达顶尖。但在指令遵循方面表现惊艳：IFBench达76.5，MultiChallenge达67.6，均超越GPT-5.2与Claude。在代理能力测试中，Qwen3.5在Tau2-Bench得86.7（仅次于Claude的91.6），MCPMark为46.1，BrowseComp则因策略不同呈现69.0至78.6的差异，凸显当前评估中“工程框架”对结果影响显著。编码能力方面，SWE-bench Verified为76.4，与K2.5和Gemini 3 Pro持平，但落后于GPT-5.2与Claude；SecCodeBench达68.3，与GPT-5.2和Claude并列。总体来看，Qwen3.5并非单项冠军，但整体均衡性极强，尤其在指令理解与多模态融合上领先。其397B规模远小于Qwen3-Max-Thinking（1T+），却全面超越，体现架构优化的显著成效。当前大模型竞争焦点已从“MoE vs 密集”转向“注意力机制”之争：Qwen3.5与Kimi K2.5采用3:1混合线性-全注意力，GLM-5引入稀疏注意力与MLA，MiniMax则采用全线性架构。DeepSeek的MLA与DSA技术广泛影响，而Qwen的Gated DeltaNet则开辟新路径。评估体系也全面转向代理任务：SWE-bench、BrowseComp、TAU2-Bench、MCPMark等成为核心指标，传统对话测试已非主流。Qwen3.5仅首发397B-A17B版本，暗示后续将推出更多尺寸，未来小规模版本是否延续混合架构值得关注。此次发布，标志着Qwen3-Next的架构预演已成功落地为生产级模型。

相关链接

相关链接

相关链接

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑

Command Palette

Qwen3.5引爆争议：注意力机制的未来何去何从？

相关链接

Command Palette

Qwen3.5引爆争议：注意力机制的未来何去何从？

相关链接

Command Palette

Qwen3.5引爆争议：注意力机制的未来何去何从？

相关链接

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑