HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA NeMo AutoModel加速Transformers微调

近日,NVIDIA 正式推出 NeMo AutoModel 开源库,该框架深度集成 HuggingFace Transformers v5,为开源生态中的专家混合模型微调提供高效解决方案。针对 MoE 架构在大规模训练中的通信与显存瓶颈,NeMo AutoModel 引入专家并行技术、DeepEP 融合调度机制以及 TransformerEngine 核心算子,并全面复用 v5 的动态权重加载架构。 实测显示,该方案在单节点多卡环境下对多款 30B 级 MoE 模型进行微调,训练吞吐量较原生 v5 提升 3.4 至 3.7 倍,峰值显存占用降低 29% 至 32%。得益于专家权重的跨卡分片,NeMo AutoModel 成功突破内存限制,稳定支撑 5500 亿参数级模型在 16 个节点(128 卡)上完成全参数微调,填补了原生框架在该规模下的能力空白。 为降低迁移门槛,该库保持与 HuggingFace 接口完全一致,用户仅需替换单行导入代码即可启用加速,且输出权重为标准格式,可无缝衔接 vLLM 等推理工具。此举为开源 MoE 大模型的高效训练与工程化部署提供了标准化路径。

相关链接