高级融合内核提升MoE训练吞吐量
英伟达近日发布基于CuTe DSL架构的高级融合MLP计算内核,旨在突破混合专家(MoE)大模型训练瓶颈。针对传统架构中激活函数计算分散、主机设备同步延迟高及低精度量化内存开销大等三大痛点,该技术重新设计了核心计算栈。新内核将矩阵乘法与GLU激活函数无缝融合,通过权重重排避免中间结果回写显存;同时将分组调度逻辑转移至显存,消除CPU发射延迟,实现全迭代无同步CUDA图执行;此外,内核原生整合MXFP8与NVFP4量化流程,进一步削减数据搬运负担。 实测表明,该融合内核在前向传播中加速最高达1.3倍,反向传播最高达2.1倍。在完整预训练流程中,英伟达DeepSeek-V3端到端吞吐量提升8%,GPT-OSS预训练吞吐量跃升93%。目前,该优化方案已集成至cuDNN前端,并支持通过Transformer Engine与Megatron-Core无缝调用。英伟达指出,后续将持续拓展融合模式并完善编译优化,进一步拓宽大模型训练的效率边界。
