HyperAI超神经

英伟达近日发布基于CuTe DSL架构的高级融合MLP计算内核，旨在突破混合专家（MoE）大模型训练瓶颈。针对传统架构中激活函数计算分散、主机设备同步延迟高及低精度量化内存开销大等三大痛点，该技术重新设计了核心计算栈。新内核将矩阵乘法与GLU激活函数无缝融合，通过权重重排避免中间结果回写显存；同时将分组调度逻辑转移至显存，消除CPU发射延迟，实现全迭代无同步CUDA图执行；此外，内核原生整合MXFP8与NVFP4量化流程，进一步削减数据搬运负担。实测表明，该融合内核在前向传播中加速最高达1.3倍，反向传播最高达2.1倍。在完整预训练流程中，英伟达DeepSeek-V3端到端吞吐量提升8%，GPT-OSS预训练吞吐量跃升93%。目前，该优化方案已集成至cuDNN前端，并支持通过Transformer Engine与Megatron-Core无缝调用。英伟达指出，后续将持续拓展融合模式并完善编译优化，进一步拓宽大模型训练的效率边界。

相关链接

相关链接

相关链接

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

Command Palette

高级融合内核提升MoE训练吞吐量

相关链接

Command Palette

高级融合内核提升MoE训练吞吐量

相关链接

Command Palette

高级融合内核提升MoE训练吞吐量

相关链接

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%