HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA DGX Spark 强劲性能全面加速高端人工智能任务

NVIDIA DGX Spark凭借其强大的性能,为AI开发者提供了在本地完成高强度AI任务的全新选择。这款基于Blackwell架构的紧凑型超级计算机,具备1 petaflop的FP4 AI算力、128 GB统一系统内存、273 GB/秒的内存带宽,并预装了完整的NVIDIA AI软件栈,使开发者无需依赖云端或数据中心即可高效开展工作。 在微调任务中,DGX Spark表现出色。使用Llama 3.2B模型进行全量微调,峰值达到82,739.2 tokens/秒;对Llama 3.1 8B模型采用LoRA方法,峰值达53,657.6 tokens/秒;而对70B级的Llama 3.3模型使用QLoRA技术,也能实现5,079.4 tokens/秒的效率。这些任务对内存要求极高,普通消费级32GB GPU无法承载。 在图像生成方面,DGX Spark支持FP4精度,显著提升生成速度。使用Flux.1 12B模型,每2.6秒可生成一张1K分辨率图像;运行SDXL 1.0 BF16模型,每分钟可生成7张1K图像,满足高分辨率、多图输出需求。 在数据科学领域,DGX Spark集成NVIDIA cuML和cuDF等CUDA-X库。处理250MB数据集时,UMAP算法仅需4秒,HDBSCAN仅需10秒;对数千万条记录的pandas操作,也仅需11秒完成,大幅加速数据处理流程。 在推理任务中,DGX Spark支持NVFP4和MXFP4等多种4-bit格式,结合TRT-LLM、llama.cpp、vLLM等后端,实现高效推理。例如,Qwen3-14B模型在NVFP4下,提示词处理速度达5,928.9 tokens/秒,生成速度为22.71 tokens/秒。更令人瞩目的是,通过两台DGX Spark通过ConnectX-7互联,成功运行了需超120GB内存的Qwen3-235B模型,生成速度达11.73 tokens/秒,展现了本地部署超大规模模型的可行性。 此外,NVFP4格式的Nemotron Nano 2模型在DGX Spark上可实现最高2倍的吞吐量,且精度损失低于1%。开发者可从Hugging Face或NVIDIA NIM获取模型。 DGX Spark让AI开发从云端回归本地,实现高效、低延迟、高精度的全流程开发,是AI研发者的理想平台。

相关链接

NVIDIA DGX Spark 强劲性能全面加速高端人工智能任务 | 热门资讯 | HyperAI超神经