HyperAI超神经

近日，NVIDIA 正式推出 NeMo AutoModel 开源库，该框架深度集成 HuggingFace Transformers v5，为开源生态中的专家混合模型微调提供高效解决方案。针对 MoE 架构在大规模训练中的通信与显存瓶颈，NeMo AutoModel 引入专家并行技术、DeepEP 融合调度机制以及 TransformerEngine 核心算子，并全面复用 v5 的动态权重加载架构。实测显示，该方案在单节点多卡环境下对多款 30B 级 MoE 模型进行微调，训练吞吐量较原生 v5 提升 3.4 至 3.7 倍，峰值显存占用降低 29% 至 32%。得益于专家权重的跨卡分片，NeMo AutoModel 成功突破内存限制，稳定支撑 5500 亿参数级模型在 16 个节点（128 卡）上完成全参数微调，填补了原生框架在该规模下的能力空白。为降低迁移门槛，该库保持与 HuggingFace 接口完全一致，用户仅需替换单行导入代码即可启用加速，且输出权重为标准格式，可无缝衔接 vLLM 等推理工具。此举为开源 MoE 大模型的高效训练与工程化部署提供了标准化路径。

相关链接

相关链接

相关链接

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

Command Palette

NVIDIA NeMo AutoModel加速Transformers微调

相关链接

Command Palette

NVIDIA NeMo AutoModel加速Transformers微调

相关链接

Command Palette

NVIDIA NeMo AutoModel加速Transformers微调

相关链接

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集