HyperAI

NVIDIA hat neue, auf der CuTe-DSL basierende fusionierte MLP-Kerne für Mixture-of-Experts-(MoE)-Modelle veröffentlicht, die das Training großer KI-Systeme erheblich beschleunigen sollen. Die Software-Optimierung adressiert drei zentrale Engpässe moderner MoE-Architekturen: die Ineffizienz von GLU-Aktivierungsfunktionen, Host-Device-Synchronisationsüberhänge sowie den Speicheroverhead bei Quantisierungen im niedrigeren Präzisionsbereich. Durch die nahtlose Verschmelzung von GEMM-Operationen mit GLU-Epiplogen, dynamischer Token-Zählung direkt auf der GPU und integrierter MXFP8- sowie NVFP4-Quantisierung werden traditionelle CPU-Launch-Overheads eliminiert. Dies ermöglicht synchronisationsfreie MoE-Ausführungen innerhalb vollständiger CUDA-Graphen, die Tensor Cores kontinuierlich mit Daten versorgen. In internen Leistungstests zeigen die neuen Kerne Beschleunigungen von 1,3- bis 2,1-fach bei Vorwärts- und Rückwärtsdurchläufen gegenüber nicht fusionierten Ausführungspfaden. Auf Anwendungsebene übersetzen sich diese Effizienzgewinne in signifikante Steigerungen des End-to-End-Trainingsdurchsatzes: Bis zu acht Prozent Verbesserung im DeepSeek-V3-Pretraining und bis zu 93 Prozent im GPT-OSS-Setup. Die Optimierungen sind ab sofort über die cuDNN Frontend, Transformer Engine und Megatron-Core verfügbar und lassen sich nahtlos in bestehende Trainingsinfrastrukturen integrieren. NVIDIA plant weitere Entwicklungsmaßnahmen, darunter die Unterstützung zusätzlicher Aktivierungsmuster, die Integration in JAX, Ahead-of-Time-Compilierung zur Reduktion von Kompilierungskosten sowie automatisierte Heuristiken zur Kernel-Auswahl. Entwickler können die Funktionalität bereits jetzt über die offiziellen GitHub-Repositorys testen. Mit dieser Software-Hardware-Co-Design-Strategie stellt das Unternehmen eine skalierbare Grundlage für die nächste Generation hochperformanter KI-Trainingscluster bereit.

Verwandte Links

Verwandte Links

Verwandte Links

Online-Tutorial | UC Berkeley/NVIDIA Und Andere Veröffentlichen Gsplat, Eine Open-Source-3DGS-Bibliothek, Die 4x GPU-Speicher Spart Und Die Trainingszeit Um 10% reduziert.

Online-Tutorial | UC Berkeley/NVIDIA Und Andere Veröffentlichen Gsplat, Eine Open-Source-3DGS-Bibliothek, Die 4x GPU-Speicher Spart Und Die Trainingszeit Um 10% reduziert.

Command Palette

Optimierte Fused-Kernels steigern MoE-Trainingsdurchsatz

Verwandte Links

Command Palette

Optimierte Fused-Kernels steigern MoE-Trainingsdurchsatz

Verwandte Links

Command Palette

Optimierte Fused-Kernels steigern MoE-Trainingsdurchsatz

Verwandte Links

Online-Tutorial | UC Berkeley/NVIDIA Und Andere Veröffentlichen Gsplat, Eine Open-Source-3DGS-Bibliothek, Die 4x GPU-Speicher Spart Und Die Trainingszeit Um 10% reduziert.

Online-Tutorial | UC Berkeley/NVIDIA Und Andere Veröffentlichen Gsplat, Eine Open-Source-3DGS-Bibliothek, Die 4x GPU-Speicher Spart Und Die Trainingszeit Um 10% reduziert.