HyperAIHyperAI

Command Palette

Search for a command to run...

vor 3 Monaten
NVIDIA
GPU

CUDA 13.2 mit verbesserter Tile-Unterstützung

NVIDIA hat mit CUDA 13.2 ein umfassendes Update seines Software-Toolkits veröffentlicht, das die Produktivität von Entwicklern durch verbesserte Unterstützung für Python, neue Speicher-Management-Funktionen und erweiterte mathematische Bibliotheken steigert. Ein zentrales Feature ist die Unterstützung von CUDA Tile auf allen GPU-Architekturen ab Ampere sowie auf neueren Ada- und Blackwell-Systemen. Dies ermöglicht eine effizientere Datennutzung auf modernen Hardware-Einheiten. Parallel dazu werden neue Python-Funktionen wie das CuTile-DSL-Modell und integrierte Profiling-Werkzeuge eingeführt, um die Entwicklung in Python-Nähe zu erleichtern. Signifikante Verbesserungen betreffen auch den Speicherverkehr. Durch neue API-Funktionen für den Asynchron-Transfer mit Attributen können Entwickler Speicherübertragungen nun präziser steuern, ohne auf aufwändige Batch-Verfahren zurückgreifen zu müssen. Auf Windows-Systemen wurde die lokale Speichernutzung (Local Memory) für virtuelle GPU-Umgebungen (vGPU) optimiert, was besonders bei ressourcenbeschränkten Szenarien von Vorteil ist. Zudem erlaubt eine neue API die Abfrage von Eigenschaften einer Speicherpools, was die Konsistenz bei der Erstellung mehrerer Pools garantiert. Ein wichtiger Wandel vollzieht sich in der Standardkonfiguration von Windows-Treibern. Ab Version R595 wechseln kompatible Systeme standardmäßig vom TCC-Modus zum MCDM-Modus. Dieser Schritt soll Kompatibilitätsprobleme beheben und die Features von WDDM-Modi auch für Server-Umgebungen nutzbar machen, wobei NVIDIA an der Latenzoptimierung arbeitet. Für Anwendungen, die spezielle Leistungsanforderungen stellen, wurde zudem die Umgebungsvariable CUDA_DISABLE_PERF_BOOST eingeführt, um das automatische Übertakten zu deaktivieren und Energie zu sparen. Für die GPU-Programmierung bietet die Version 3.2 der CUDA Core Compute Libraries (CCCL) neue, moderne C++-Schnittstellen, die eine sicherere und produktivere Arbeit ermöglichen. Neu sind zudem hochoptimierte Algorithmen wie Top-K-Auswahl und segmentierte Reduktionen, die in spezifischen Workloads bis zu sechsfache Geschwindigkeitsvorteile gegenüber bestehenden Methoden bieten. Die mathematischen Bibliotheken wie cuBLAS und cuSOLVER wurden erweitert, um FP64-Berechnungen durch Emulation auf Blackwell-GPUs zu beschleunigen und MXFP8-Operationen für KIs zu unterstützen. In den Entwicklungswerkzeugen führt NVIDIA Nsight Python ein, das eine nahtlose Profilierung von CUDA-Kernels direkt aus Python-Umgebungen ermöglicht. Zudem ist das Debugging von Numba-CUDA-Kernen erstmals über Kommandozeilen-Debugger und Visual Studio Code Edition möglich. Die Nsight Compute-Suite bietet neue Funktionen zum Clustern von Leistungsberichten und eine verbesserte Visualisierung von CUDA Graphs. Für Entwickler eingebetteter Arm-Systeme wurde die Einheitlichkeit weiter vorangetrieben. Mit CUDA 13.2 und JetPack 7.2 kann dieselbe SBSA-Toolkit-Version nun über alle Arm-Ziele hinweg, einschließlich der NVIDIA Jetson Orin-Reihe, genutzt werden. Dies reduziert Komplexität in CI-Pipelines und Eliminierungsfehler. Besonders hervorzuheben ist die neue Unterstützung für Multi-Instance GPU (MIG) auf dem Jetson Thor, die es erlaubt, die GPU in zwei isolierte Instanzen aufzuteilen. Dies ist entscheidend für Mixed-Criticality-Anwendungen wie humanoide Robotik, bei denen sicherheitskritische Aufgaben von weniger kritischen Prozessen entkoppelt werden müssen. Neben diesen Kernupdates unterstützt CuPy nun CUDA 13.x und bietet über das Stream-Protokoll eine nahtlose Interoperabilität mit anderen Frameworks wie PyTorch. Auch CUDA Graphs sind nun in der stabilen Python-API verfügbar, was die Wiederverwendung komplexer Operationsabläufe ohne manuelle Verwaltung von Zeigern vereinfacht. Das Toolkit steht nun zum Download bereit und setzt neue Standards für die Hochleistungsprogrammierung mit Grafikprozessoren.

Verwandte Links

CUDA 13.2 mit verbesserter Tile-Unterstützung | Aktuelle Beiträge | HyperAI