DeepSeek V4 基于 NVIDIA Blackwell 与 GPU 加速端点构建
DeepSeek 正式推出第四代旗舰模型 DeepSeek-V4 系列,包含面向高级推理的 1.6 万亿参数 DeepSeek-V4-Pro 和主打高效推理的 2840 亿参数 DeepSeek-V4-Flash。两款模型均支持高达 100 万标记的上下文窗口,最大输出长度可达 38.4 万标记,采用 MIT 开源许可。其核心架构创新在于混合注意力机制,相比前代产品显著降低了每 Token 的计算量和 KV 缓存内存占用,为长上下文代码生成、文档分析及智能体工作流提供了关键支撑。 NVIDIA Blackwell 架构已针对 DeepSeek-V4 进行深度优化。在 NVIDIA GB200 NVL72 平台上的实测显示,DeepSeek-V4-Pro 的推理速度超过每秒 150 个 Token,充分证明其能高效处理万亿参数级智能与超长上下文任务。为降低部署门槛,开发者可通过 NVIDIA Build 平台直接使用 GPU 加速的托管端点快速原型验证。此外,DeepSeek-V4 已发布 Day-0 版本的 NVIDIA NIM 微服务,支持通过标准 API 模式本地部署,并兼容 SGLang 和 vLLM 等多种推理框架,提供低延迟、高吞吐及多节点分布式部署选项,满足复杂智能体对工具调用和逻辑推理的严苛需求。 此举标志着行业重心从单纯选择模型转向构建可扩展的基础设施战略。NVIDIA 强调,在开源模型逼近智能前沿的当下,能够在最低 Token 成本下部署和扩展高性能模型将成为企业的核心竞争优势。开发者可访问 Hugging Face 获取模型,或通过 NVIDIA 平台开启相关测试与部署工作。
