HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA DGX Spark : Un superordinateur compact pour accélérer l’IA en local, même avec les modèles les plus gourmands

Le NVIDIA DGX Spark, un superordinateur compact alimenté par l’architecture Blackwell, offre des performances exceptionnelles pour les tâches d’intelligence artificielle intensives, permettant aux développeurs d’effectuer des travaux complexes localement, sans recourir au cloud ou aux centres de données. Doté d’une puissance de calcul de 1 petaflop en précision FP4, de 128 Go de mémoire système cohérente, d’une bande passante mémoire de 273 Go/s et d’un stack logiciel AI NVIDIA préinstallé, ce système s’impose comme une solution performante et autonome pour le développement d’IA. En matière d’ajustement fin (fine-tuning), le DGX Spark excelle. Il atteint un débit de 82 739,2 tokens/seconde pour le fine-tuning complet d’un modèle Llama 3.2B, 53 657,6 tokens/seconde pour Llama 3.1 8B via LoRA, et 5 079,4 tokens/seconde pour Llama 3.3 70B en QLoRA, tous en FP4. Ces performances dépassent largement les capacités des GPU grand public à 32 Go de mémoire, rendant possible l’entraînement de modèles de grande taille en local. Pour la génération d’images, le DGX Spark gère efficacement des modèles de haute résolution. Avec le modèle Flux.1 12B en FP4, il produit une image 1K toutes les 2,6 secondes. En utilisant SDXL 1.0 en BF16, il génère jusqu’à 7 images 1K par minute, grâce à sa mémoire étendue et à sa puissance de calcul élevée. L’optimisation par TensorRT et le support du format FP4 sont clés pour cette performance. Dans le domaine de la science des données, le DGX Spark intègre les bibliothèques CUDA-X comme cuML et cuDF. Il traite des jeux de données de 250 Mo en quelques secondes (UMAP en 4 s, HDBSCAN en 10 s) et exécute des opérations pandas sur des ensembles de dizaines de millions d’éléments en 11 secondes, offrant un gain de vitesse significatif par rapport aux solutions CPU. En inférence, le DGX Spark exploite le format NVFP4, une précision 4 bits conçue par NVIDIA pour une exactitude proche de l’FP8 (moins de 1 % de dégradation). Il atteint des débits de traitement de prompt allant jusqu’à 23 477 tokens/seconde pour Qwen3 235B sur deux systèmes connectés via les puces ConnectX-7. La génération de tokens atteint 11,73 tokens/seconde, démontrant que des modèles de taille énorme peuvent être testés localement. Le système supporte plusieurs formats 4 bits (NVFP4, MXFP4) et backends comme TRT-LLM, llama.cpp et vLLM, offrant une grande flexibilité. Enfin, le modèle Nemotron Nano 2 en NVFP4 offre jusqu’à 2 fois plus de débit avec une perte négligeable de précision. Disponible sur Hugging Face ou via NVIDIA NIM, il renforce l’attractivité du DGX Spark pour les développeurs. En résumé, le DGX Spark combine puissance, mémoire et logiciels optimisés pour transformer le développement d’IA en une expérience locale, rapide et efficace. Il s’adresse aux chercheurs, ingénieurs et startups souhaitant expérimenter à grande échelle sans dépendre des infrastructures distantes. Son adoption marque une avancée majeure vers une IA accessible, performante et décentralisée.

Liens associés

NVIDIA DGX Spark : Un superordinateur compact pour accélérer l’IA en local, même avec les modèles les plus gourmands | Articles tendance | HyperAI