腾讯开源Hunyuan-A13B:高效MoE模型支持256K上下文和双模式推理
腾讯混元团队近日发布了一款名为 Hunyuan-A13B 的开源大型语言模型。这款模型采用了稀疏混合专家(MoE)架构,总参数量达到 800 亿,但在推理过程中只有 130 亿参数被激活,达到了性能和计算成本之间的高度平衡。Hunyuan-A13B 支持两种注意力机制:分组查询注意力(GQA)和 256K 上下文长度,同时还具备双模式推理能力,能够在快速思考和深入思考之间切换。 核心架构与训练方法 Hunyuan-A13B 的 MoE 架构包括 1 个共享专家和 64 个非共享专家,在每次前向传播中激活 8 个专家。这一设计基于扩展实验验证,确保了模型在保持高性能的同时降低了推理成本。模型共有 32 层,使用 SwiGLU 激活函数,词汇表大小为 128K,并且集成了 GQA 以提高长上下文推理的内存效率。 训练流程分为三个阶段:20万亿令牌的预训练,快速退火以及长上下文适应。在最后的长上下文适应阶段,模型的上下文窗口首先扩展到 32K,然后逐步增加至 256K 令牌,通过核态相关位置编码确保在较长序列长度下的稳定性能。 双模式推理能力 Hunyuan-A13B 最引人注目的特点是其双模式链式思维(CoT)功能。它支持低延迟的快速思考模式,适用于日常查询,同时也提供多步推理的慢速思考模式,适用于复杂任务。这两种模式通过简单的标签系统控制,用户可以通过添加 /no think 标签启用快速模式,或通过 /think 标签启动慢速模式,灵活调节计算成本以适应任务的复杂度。 后训练与强化学习 在后训练阶段,Hunyuan-A13B 经历了多个监督微调(SFT)和基于任务的强化学习(RL)阶段。RL 阶段采用结果导向的奖励和工具特定的反馈,包括代码的沙箱执行环境和代理的规则检查。在代理训练中,团队合成了一系列多样化的工具使用场景,涉及策划者、检查者和工具角色,生成了超过 20,000 种格式组合,进一步增强模型在实际工作流中的表现,如电子表格处理、信息搜索和结构化推理。 评估与性能 Hunyuan-A13B 在多个基准测试中表现出色,尤其在涉及代理行为的任务中表现出极高的性能。例如,在 BFCL-v3、τ-Bench、C3-Bench 和 ComplexFuncBench 等基准上,它的表现经常优于更大的模型。在长期上下文理解方面,Hunyuan-A13B 在 PenguinScrolls 基准上得分 87.7,仅略低于 Gemini 2.5 Pro。在 RULER 基准上,即使在 64K 至 128K 的上下文情况下,依然保持 73.9 的高分,超过 Qwen3-A22B 和 DeepSeek R1 等模型,展示了其在长上下文任务中的强韧性。 推理优化与部署 Hunyuan-A13B 已经完全集成到多种流行的推理框架中,如 vLLM、SGLang 和 TensorRT-LLM。它支持多种精度格式,如 W16A16、W8A8 和 KV Cache FP8,同时具备自动前缀缓存和块填充等功能。该模型在 32 批次输入(2048 输入长度,14336 输出长度)时,最高可达 1981.99 令牌/秒的推理吞吐量,使其在实时应用中具备实用性。 开源发布与行业影响 Hunyuan-A13B 目前已在 Hugging Face 和 GitHub 上发布,并采用宽松的开源许可协议,使得研究人员和开发人员可以自由地使用和修改。该模型特别适用于低延迟环境和长上下文任务,对于促进高效研究和生产应用具有重要意义。 业内专家认为,腾讯的 Hunyuan-A13B 不仅在技术上具备创新性,其高效的推理表现和灵活的双重推理模式也使其在实际应用中更具优势。腾讯作为中国最大的互联网巨头之一,持续在人工智能领域投入大量资源,Hunyuan-A13B 是其在大型语言模型研发方面的重要成果之一。