HyperAI超神经

NVIDIA DGX Spark凭借其强大的性能，为AI开发者提供了在本地完成高强度AI任务的全新选择。这款基于Blackwell架构的紧凑型超级计算机，具备1 petaflop的FP4 AI算力、128 GB统一系统内存、273 GB/秒的内存带宽，并预装了完整的NVIDIA AI软件栈，使开发者无需依赖云端或数据中心即可高效开展工作。在微调任务中，DGX Spark表现出色。使用Llama 3.2B模型进行全量微调，峰值达到82,739.2 tokens/秒；对Llama 3.1 8B模型采用LoRA方法，峰值达53,657.6 tokens/秒；而对70B级的Llama 3.3模型使用QLoRA技术，也能实现5,079.4 tokens/秒的效率。这些任务对内存要求极高，普通消费级32GB GPU无法承载。在图像生成方面，DGX Spark支持FP4精度，显著提升生成速度。使用Flux.1 12B模型，每2.6秒可生成一张1K分辨率图像；运行SDXL 1.0 BF16模型，每分钟可生成7张1K图像，满足高分辨率、多图输出需求。在数据科学领域，DGX Spark集成NVIDIA cuML和cuDF等CUDA-X库。处理250MB数据集时，UMAP算法仅需4秒，HDBSCAN仅需10秒；对数千万条记录的pandas操作，也仅需11秒完成，大幅加速数据处理流程。在推理任务中，DGX Spark支持NVFP4和MXFP4等多种4-bit格式，结合TRT-LLM、llama.cpp、vLLM等后端，实现高效推理。例如，Qwen3-14B模型在NVFP4下，提示词处理速度达5,928.9 tokens/秒，生成速度为22.71 tokens/秒。更令人瞩目的是，通过两台DGX Spark通过ConnectX-7互联，成功运行了需超120GB内存的Qwen3-235B模型，生成速度达11.73 tokens/秒，展现了本地部署超大规模模型的可行性。此外，NVFP4格式的Nemotron Nano 2模型在DGX Spark上可实现最高2倍的吞吐量，且精度损失低于1%。开发者可从Hugging Face或NVIDIA NIM获取模型。 DGX Spark让AI开发从云端回归本地，实现高效、低延迟、高精度的全流程开发，是AI研发者的理想平台。

相关链接

相关链接

相关链接

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

Command Palette

NVIDIA DGX Spark 强劲性能全面加速高端人工智能任务

相关链接

Command Palette

NVIDIA DGX Spark 强劲性能全面加速高端人工智能任务

相关链接

Command Palette

NVIDIA DGX Spark 强劲性能全面加速高端人工智能任务

相关链接

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布