HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 3 mois
NVIDIA
GPU

CUDA 13.2 améliore les tuiles CUDA et ajoute Python

NVIDIA a officiellement lancé la version 13.2 de son toolkit CUDA, une mise à jour majeure destinée à améliorer la productivité des développeurs et à élargir le support matériel. Cette version étend désormais la prise en charge de CUDA Tile aux architectures NVIDIA Ampere, Ada et Blackwell, avec la promesse d'un support complet pour toutes les générations à partir d'Ampere dans une prochaine release. Pour les développeurs Python, cette évolution s'accompagne de nouveaux fonctionnalités facilitant l'intégration via des commandes d'installation simplifiées. Au niveau des bibliothèques mathématiques, les améliorations sont significatives. NVIDIA cuBLAS intègre désormais une API expérimentale pour les GEMM groupés supportant le format MXFP8 sur les puces Blackwell, offrant jusqu'à quatre fois de gain de vitesse dans les cas d'utilisation d'experts mélangés. Parallèlement, cuSOLVER introduit des fonctions pour le calcul FP64 émulé, permettant des gains de performance allant jusqu'à 200 % pour des opérations comme la factorisation QR sur des matrices de grande taille. Ces avancées visent à optimiser les charges de travail intensives en calcul tout en réduisant les latences. Les outils de développement connaissent également une transformation profonde. L'arrivée de NVIDIA Nsight Python permet désormais aux développeurs de profiler les noyaux CUDA directement depuis des frameworks Python, sans passer par des outils externes complexes. Pour les utilisateurs de Numba, le débogage des noyaux CUDA devient possible via la ligne de commande et l'extension Visual Studio Code, une première historique qui facilite l'identification et la résolution des erreurs. Par ailleurs, le support du débogage pour les noyaux Numba-CUDA s'enrichit de nouvelles fonctionnalités et d'une meilleure intégration dans l'environnement de développement. La gestion de la mémoire et des graphes a été renforcée pour une plus grande flexibilité. De nouvelles API, telles que cudaMemcpyWithAttributesAsync, simplifient le contrôle des transferts mémoire sans nécessiter d'interfaces groupées complexes. La fonction polymorphique cudaGraphNodeGetParams permet désormais d'accéder aux paramètres des nœuds de graphes CUDA, améliorant ainsi la gestion des workflows d'opérations. Sous Windows, le changement par défaut vers le mode MCDM pour les pilotes GPU vise à résoudre des problèmes de compatibilité, bien que la performance d'accès aux graphes soit en cours d'optimisation pour égaler les niveaux du mode TCC. Pour les développeurs C++, la bibliothèque CCCL version 3.2 apporte des API runtime modernes et idiomatic, réduisant la dépendance aux appels C traditionnels. De nouveaux algorithmes optimisés, comme la sélection Top-K et la réduction segmentée à taille fixe, offrent des accélérations substantielles par rapport aux méthodes de tri ou de réduction classiques. Ces outils permettent de gagner jusqu'à cinq fois en vitesse sur certaines opérations tout en réduisant la consommation mémoire. Enfin, l'écosystème Python bénéficie de mises à jour majeures. La bibliothèque CuPy supporte désormais CUDA 13 et implémente le protocole de flux CUDA, permettant un échange de données zéro copie avec PyTorch et JAX. La gestion des graphes CUDA devient stable et accessible, facilitant la capture et la rejouabilité d'opérations avec des schémas avancés. Avec JetPack 7.2, le support de la fonctionnalité MIG (Multi-Instance GPU) sur les puces Jetson Thor permettra aux développeurs d'isoler les charges critiques, comme le contrôle moteur pour la robotique, des tâches de perception lourde, garantissant ainsi une latence prévisible et une sécurité accrue pour les systèmes autonomes.

Liens associés

CUDA 13.2 améliore les tuiles CUDA et ajoute Python | Articles tendance | HyperAI