HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA携手Mistral AI推出加速版开源大模型

Mistral AI近日正式发布全新Mistral 3系列开源多语言、多模态大模型,涵盖从超大规模混合专家模型(MoE)到轻量级边缘部署模型的完整家族,全面优化适配NVIDIA超级计算平台与边缘设备。该系列模型基于NVIDIA Hopper架构GPU训练完成,现已在Hugging Face平台开放下载,支持多种精度格式与主流开源推理框架,为开发者和企业提供了高度灵活、高效且可定制的AI解决方案。 其中,Mistral Large 3是该系列的核心,采用混合专家(MoE)架构,具备6750亿总参数、410亿活跃参数和256K超长上下文窗口,专为大规模企业级AI工作负载设计。其核心优势在于“按需激活”机制——仅调用对当前任务最相关的模型专家,大幅降低计算冗余,实现高效率与高准确性的平衡。在NVIDIA GB200 NVL72系统上,Mistral Large 3性能较前代H200提升高达10倍,每瓦特可处理超过500万token,显著提升用户体验、降低单位token成本并增强能效。 该模型性能的跃升得益于多项NVIDIA深度优化技术:TensorRT-LLM支持宽专家并行(Wide-EP),高效利用NVLink相干内存域;NVFP4量化技术在保持精度的同时大幅减少计算与内存开销;NVIDIA Dynamo框架实现预填充与解码阶段的速率匹配与解耦,显著提升长上下文任务表现。此外,vLLM、SGLang等框架也已集成对Mistral Large 3的支持,包括推测解码(EAGLE)与多标记预测(MTP)等前沿优化,未来将进一步释放性能潜力。 与此同时,Mistral AI还推出三款轻量级的Ministral 3模型(3B、8B、14B),专为边缘设备优化,支持Base、Instruct与Reasoning三种模式,可在NVIDIA GeForce RTX AI PC、DGX Spark、Jetson等平台高效运行。通过与Llama.cpp、Ollama等框架合作,开发者可在本地实现低延迟、高隐私的AI推理,例如在RTX 5090上实现最高385 token/秒的推理速度,Jetson Thor上单并发达52 token/秒,8并发可达273 token/秒。 企业用户可通过NVIDIA API目录快速接入Mistral Large 3与Ministral-14B-Instruct模型,未来还将支持下载式NVIDIA NIM微服务,实现跨GPU基础设施的无缝部署。结合NVIDIA NeMo工具链(如数据设计、定制化、安全护栏与Agent工具包),企业可加速从原型到生产落地的全流程。 Mistral 3系列的发布标志着“分布式智能”时代的加速到来——通过连接前沿研究与实际应用,将高性能AI能力从云端延伸至边缘,真正实现“AI everywhere”。该系列模型现已全面开放,开发者可前往Hugging Face或build.nvidia.com/mistralai免费获取,推动全球AI创新的民主化与普及。

相关链接