NVIDIA DGX Spark beschleunigt intensive AI-Arbeiten lokal mit hoher Leistung und großem Speicher.
NVIDIA DGX Spark revolutioniert die Durchführung intensiver KI-Entwicklungsaufgaben, indem er eine leistungsstarke, kompakte Supercomputer-Plattform direkt am Arbeitsplatz bereitstellt. Mit dem Blackwell-Architektur-basierten GPU-Chip erreicht das System eine Leistung von 1 Petaflop in FP4-KI-Computing, verfügt über 128 GB koherente, einheitliche System-Speicher und eine Speicherbandbreite von 273 GB/s. Zudem ist die gesamte NVIDIA AI-Software-Stack vorinstalliert, was eine nahtlose Integration und schnelle Entwicklung ermöglicht. Damit wird der Bedarf an Cloud-Instanzen oder Datenzentren-Queue reduziert, da Entwickler nun komplexe KI-Arbeitslasten lokal bearbeiten können – ohne Abhängigkeit von externen Infrastrukturen. Insbesondere bei der Feinabstimmung (Fine-tuning) von großen Sprachmodellen zeigt DGX Spark beeindruckende Leistung. Bei der vollständigen Feinabstimmung eines Llama 3.2B-Modells erreichte es 82.739,2 Token pro Sekunde, bei LoRA-Feinabstimmung eines 8B-Modells 53.657,6 Token/s und bei QLoRA für ein 70B-Modell 5.079,4 Token/s – Werte, die mit herkömmlichen 32-GiB-Consumer-GPUs nicht erreichbar sind, da die Speicheranforderungen zu hoch wären. In der Bildgenerierung erzeugt das System mit dem Flux.1 12B-Modell bei FP4-Präzision ein 1K-Bild alle 2,6 Sekunden und kann bei BF16-SDXL 1.0 sieben 1K-Bilder pro Minute generieren. Für Datenwissenschaftler bietet DGX Spark durch die Integration von CUDA-X-Bibliotheken wie cuML und cuDF massive Beschleunigung: UMAP und HDBSCAN verarbeiten 250 MB Daten in Sekunden, während pandas-ähnliche Operationen mit Datenmengen bis zu mehreren Gigabyte in nur 11 Sekunden ablaufen. Im Bereich Inferenz nutzt DGX Spark den neuen NVFP4-Format, das nahezu FP8-Accuracy bei deutlich geringerem Speicherbedarf bietet. Die Leistung zeigt sich in hohen Durchsatzraten: Bei Qwen3-14B-Modellen erreicht es 5.928,9 Token pro Sekunde bei Prompt-Verarbeitung. Mit der Unterstützung mehrerer 4-Bit-Formate (NVFP4, MXFP4) und Backends wie TRT-LLM, llama.cpp und vLLM ist die Flexibilität hoch. Besonders bemerkenswert ist die Fähigkeit, das 235B-Modell von Qwen3 über zwei DGX-Spark-Systeme hinweg zu betreiben – ein Leistungsniveau, das normalerweise nur in Cloud- oder Rechenzentrumsinfrastrukturen möglich ist. Dabei erreicht das System eine Token-Generierung von 11,73 Token/s. Industrieexperten begrüßen DGX Spark als Meilenstein für KI-Entwicklung, da es die Grenzen zwischen lokaler und Cloud-Entwicklung aufhebt. Unternehmen wie NVIDIA positionieren DGX Spark als zentralen Baustein für die nächste Generation von KI-Entwicklern, die schnelle Iterationen und Experimente ohne Infrastrukturkomplexität ermöglicht. Mit der Integration in die DGX Spark-Community und Zugang zu Modellen über Hugging Face oder NVIDIA NIM wird die Plattform zu einem zentralen Werkzeug für Forschung, Produktentwicklung und Bildung im KI-Bereich.
