Command Palette
Search for a command to run...
Hunyuan-Large:腾讯开源的拥有520亿激活参数的MoE模型
Hunyuan-Large:腾讯开源的拥有520亿激活参数的MoE模型
Tencent Hunyuan Team
一键部署 HunyuanVideo
摘要
在本文中,我们介绍了Hunyuan-Large,这是目前最大的基于Transformer的混合专家(Mixture of Experts, MoE)开源模型,总参数量为3890亿,激活参数量为520亿,能够处理长达256K token的上下文。我们在多个基准测试中对Hunyuan-Large的卓越性能进行了全面评估,涵盖语言理解与生成、逻辑推理、数学问题解决、代码编写、长上下文以及综合任务等,其表现优于Llama3.1-70B,并与参数量大得多的Llama3.1-405B模型相当。Hunyuan-Large的关键实践包括:规模比先前文献大几个数量级的合成数据、混合专家路由策略、键值缓存压缩技术以及针对专家的特定学习率策略。此外,我们还研究了混合专家模型的缩放定律(scaling laws)和学习率调度方法,为未来模型的开发和优化提供了有价值的见解和指导。Hunyuan-Large的代码和检查点已公开,以促进未来的创新与应用。
一句话总结
腾讯混元团队推出 Hunyuan-Large,这是一款基于 Transformer 的开源混合专家(MoE)模型,总参数量为 3890 亿,激活参数量为 520 亿,支持高达 256K token 的上下文窗口。该模型在语言、推理、代码和长上下文基准测试中表现优于 Llama3.1-70B,并与 Llama3.1-405B 的性能相当。其通过大规模合成数据、混合专家路由、键值缓存压缩以及专家特定学习率等策略实现上述性能。
核心贡献
- 提出 Hunyuan-Large,一款基于 Transformer 的开源混合专家模型,包含 3890 亿总参数量和 520 亿激活参数量,支持 256K token 的上下文窗口。
- 引入回收路由策略、键值缓存压缩以及专家特定学习率调度,以降低开销并提升大规模预训练期间的 token 利用率。
- 在多样化基准测试中展现卓越性能,在语言理解、逻辑推理、数学、代码和长上下文任务中超越 Llama3.1-70B,并达到与 Llama3.1-405B 相当的水平。
引言
大语言模型已迅速改变从自然语言处理到科学计算的多个领域,混合专家(MoE)架构已成为在控制计算成本的同时扩展性能的高效范式。尽管取得这些进展,开源社区仍严重依赖稠密模型,因为现有的开源 MoE 实现通常局限于较小的参数量级。为填补这一空白,作者提出了 Hunyuan-Large,这是一款基于 Transformer 的 3890 亿参数 MoE 模型,每个 token 动态激活 520 亿参数,并支持 256K 上下文窗口。通过利用高质量合成数据、KV 缓存压缩与回收路由等架构优化,以及系统的缩放定律分析,该模型在推理、代码和多语言任务中超越了对应的开源模型。团队已公开预训练和微调后的权重,以加速社区研究与实际部署。
数据集
-
数据集构成与来源 作者构建了一个中英双语语料库,将自然文本基础与大量合成数据相结合。自然数据源涵盖网页、问答平台、代码仓库、书籍和百科全书。该集合还补充了 PenguinScrolls,这是一个专注于金融、法律和学术文档的长上下文基准测试集。
-
关键子集详情
- 预训练自然数据: 针对写作质量、教育价值和毒性进行过滤。隐私敏感及有害内容会被匿名化或排除。
- 预训练合成数据: 专注于数学、代码、低资源领域和高教育价值主题。通过四步流程生成:基于种子的指令生成、难度与清晰度演化、专家模型响应生成以及自一致性过滤。
- 监督微调数据: 包含超过 100 万条样本,针对逻辑、推理、代码、角色扮演和长文本能力进行优化。通过从公开来源提取指令,并系统地将其泛化为复杂变体来构建。
- PenguinScrolls 基准测试: 包含长达 128K tokens 的上下文、多轮人类模拟对话,以及四种任务类型:信息抽取、定位、定性分析和数值推理。
-
数据使用与训练策略 作者以可配置比例混合自然与合成预训练数据,并在训练过程中动态调整各类别比例。针对 SFT,数据集经过精心筛选以弥补特定能力短板,确保模型均衡接触多样化指令类型。所有数据在进入模型前均经过多阶段处理流水线。
-
元数据、裁剪与质量控制 尽管未详细说明明确的文本裁剪策略,作者实施了一套基于类别标签和结构化指令分类法的稳健元数据系统。这些标签实现了对数据分布的精确控制,并有助于防止模型对主导型指令类型过拟合。质量保证采用针对 SFT 的三级过滤方法:基于规则的格式与重复检查、700 亿参数批评模型对准确性与相关性进行评分,以及最终的人工标注以强化特定任务响应模式。合成预训练数据在纳入前会经过自动化批评与自一致性验证。
方法
作者为 Hunyuan-Large 采用了混合专家(MoE)架构,在经典 Transformer 结构基础上对模型设计与训练方法进行了关键创新。整体框架围绕专家的层级组织构建,每个 token 被路由至一组专用专家进行处理,从而实现模型容量的高效扩展。该模型结合了共享专家与专用专家,其中单一共享专家负责处理所有 token 的通用知识,16 个专用专家则动态激活以捕捉领域特定模式。该路由机制通过一种新颖的回收路由策略得到增强,该策略通过将 token 从过载专家重新分配至未充分利用的专家,解决了传统 top-k 路由的效率问题,从而保留关键信息并提升训练稳定性。
框架图展示了模型架构与超参数的概览。模型采用旋转位置编码(RoPE)进行位置编码,并使用 SwiGLU 作为激活函数。该架构旨在平衡参数量与计算效率,总参数量为 3890 亿,推理时仅激活 520 亿参数,从而在无需高昂内存开销的情况下实现高容量建模。
为降低推理期间的内存压力,作者集成了两种互补的键值(KV)缓存压缩技术:分组查询注意力(GQA)与跨层注意力(CLA)。GQA 通过对 KV 头进行分组来减少其数量,而 CLA 则在相邻层之间共享 KV 缓存。在 Hunyuan-Large 中,这些技术与 8 个 GQA 组及每两层共享一次 KV 缓存相结合,使得 KV 缓存内存占用较标准多头注意力机制降低近 95%。该优化在不降低模型性能的前提下显著提升了推理效率。
模型的训练过程采用了一种针对专家间不平衡工作负载的精细学习率策略。虽然使用 AdamW 作为优化器,但作者应用了专家特定学习率缩放,以反映各专家处理 token 数量的差异。负责处理所有 token 的共享专家根据完整批次大小分配最优学习率,而仅激活处理部分 token 的专用专家则获得缩放后的较低学习率。这种缩放确保了训练动态的平衡并最大化效率,共享专家与专用专家之间的学习率比例约为 0.31。
预训练配方由对 MoE 缩放定律的系统探索所指导。MoE 模型的计算预算被建模为总参数量与激活参数的函数,由于稀疏激活模式,注意力复杂度也被纳入考量。通过训练一系列具有不同激活数量的模型,并在受限计算预算下分析其性能,作者推导出了激活参数与训练数据量的最优缩放定律。该分析指导了 520 亿激活参数与约 7 万亿训练 token 的选定,确保了高性价比的模型开发。学习率调度进一步增强了训练稳定性,包含预热阶段、漫长的衰减阶段以及最终退火阶段,在退火阶段学习率降至峰值的十分之一,以便在高质量数据上微调模型。
最后,为启用长上下文能力,Hunyuan-Large 经历了专门的长上下文预训练阶段。该阶段涉及在长达 256K tokens 的序列上进行训练,序列长度从 32K 逐步增加至 256K。在 256K 阶段,RoPE 位置编码的基础频率被缩放至 10 亿,使模型能够有效建模长距离依赖。该阶段的预训练语料库将来自书籍和代码的自然长上下文数据与标准长度数据相结合,确保模型在长上下文和短上下文任务中均能保持强劲性能。
实验
评估在多样化基准测试中采用标准化的零样本与少样本协议,以验证基础模型的核心能力、微调变体的对齐与指令遵循水平,以及扩展上下文处理的鲁棒性。预训练结果表明,优化的 MoE 架构结合高质量数据合成可在保持高参数效率的同时实现卓越的跨任务性能。随后的指令微调实验证实,先进的偏好优化策略显著增强了模型对齐与严格的提示词遵循能力,且未削弱通用推理能力。长上下文评估进一步验证了模型在扩展序列中的一致稳定性与信息准确保留能力,确立了其作为高效且多功能语言模型的地位。
作者展示了 Hunyuan-Large(一款采用混合专家架构的模型)的评估结果,该模型在预训练与后训练设置下于各类基准测试中均表现强劲。模型在推理、数学、代码和语言理解等多个类别中取得领先成绩,通常超越激活参数量更大的模型。同时,其展现出稳健的长上下文能力,在扩展输入长度下保持高性能。在推理、数学和代码等多样化任务中,Hunyuan-Large 的性能优于激活参数量相当或更大的模型。Hunyuan-Large 的微调版本在多个基准类别中展现出强大的对齐与指令遵循能力。该模型在扩展上下文长度下维持高性能,在长上下文评估基准上超越强劲基线。
作者在不同英文与中文基准测试(涵盖推理、常识、数学和代码任务)中,将 Hunyuan-Large 与稠密模型及 MoE 竞品进行对比。结果表明,Hunyuan-Large 取得了最佳的整体性能,尤其在中文任务与长上下文场景中表现突出,且使用的激活参数量少于大型模型。该模型在预训练后评估与对齐基准测试中也展现出强劲性能。与激活参数量相当或更大的模型相比,Hunyuan-Large 在多个基准测试中实现更优表现。该模型在中文任务与长上下文评估中成绩优异,超越了 LLaMA3.1-70B-Instruct 等基线模型。Hunyuan-Large 在数学与代码任务中达到顶尖水平,在 MMLU 和 MATH 数据集上取得显著提升。
作者在不同长上下文基准测试上评估了 Hunyuan-Large-Instruct,并将其性能与强劲基线模型进行对比。结果表明,Hunyuan-Large-Instruct 在各类上下文长度下均维持高性能,展现出更优的稳定性,并在 RULER 与 LV-Eval 基准测试中持续超越基线,尤其在较长上下文范围内表现明显。Hunyuan-Large-Instruct 在 RULER 和 LV-Eval 基准测试的所有上下文长度下均稳定超越基线。该模型在长上下文处理中表现出卓越的稳定性,随着上下文长度增加,性能下降幅度极小。Hunyuan-Large-Instruct 在 RULER 基准测试的 64K 至 128K token 范围内相较于基线取得显著提升。
作者在一组聚焦信息抽取、定位、定性分析与数值推理的基准测试上评估了 Hunyuan-Large-Instruct 模型,并将其性能与 LLaMa3.1-70B-Instruct 进行对比。结果表明,Hunyuan-Large-Instruct 在所有评估任务中均超越基线,在各分类中取得更高分数,整体表现更优。该模型在信息抽取与定性分析方面展现显著优势,持续超越对比模型。Hunyuan-Large-Instruct 在所有评估任务类别中的表现均高于 LLaMa3.1-70B-Instruct。相较于基线,该模型在信息抽取与定性分析方面的提升最为显著。Hunyuan-Large-Instruct 取得更高的综合得分,表明其在各项测试能力上表现更优。
作者在各类基准测试中评估了 Hunyuan-Large-Instruct,并将其与最先进的稠密模型及混合专家模型进行对比。结果表明,Hunyuan-Large-Instruct 在多项任务中实现更优性能,尤其在推理、数学、代码生成与对齐方面,同时展现出强劲的长上下文能力。在 MMLU、MATH 和 HumanEval 等关键基准测试中,该模型优于同类模型。模型在指令对齐与遵循任务中取得顶尖成绩,表明其与用户意图高度契合。Hunyuan-Large-Instruct 在长上下文评估中表现稳定,在处理扩展输入时超越基线模型。
作者在一套全面的英文与中文基准测试中,将 Hunyuan-Large 及其指令微调变体与具有竞争力的稠密模型及混合专家基线进行对比。这些实验验证了模型在推理、数学、代码、对齐、信息抽取与长上下文处理方面的熟练度。定性来看,该架构在消耗比大型竞品更少激活参数的同时持续交付顶尖成绩,在扩展上下文窗口下展现出非凡的稳定性,并具备强大的跨语言与指令遵循能力。总体而言,评估结果证实该模型在多样化下游任务中实现了更优的效率与稳健的泛化能力。