HyperAI超神经

Mistral AI近日正式发布全新Mistral 3系列开源多语言、多模态大模型，涵盖从超大规模混合专家模型（MoE）到轻量级边缘部署模型的完整家族，全面优化适配NVIDIA超级计算平台与边缘设备。该系列模型基于NVIDIA Hopper架构GPU训练完成，现已在Hugging Face平台开放下载，支持多种精度格式与主流开源推理框架，为开发者和企业提供了高度灵活、高效且可定制的AI解决方案。其中，Mistral Large 3是该系列的核心，采用混合专家（MoE）架构，具备6750亿总参数、410亿活跃参数和256K超长上下文窗口，专为大规模企业级AI工作负载设计。其核心优势在于“按需激活”机制——仅调用对当前任务最相关的模型专家，大幅降低计算冗余，实现高效率与高准确性的平衡。在NVIDIA GB200 NVL72系统上，Mistral Large 3性能较前代H200提升高达10倍，每瓦特可处理超过500万token，显著提升用户体验、降低单位token成本并增强能效。该模型性能的跃升得益于多项NVIDIA深度优化技术：TensorRT-LLM支持宽专家并行（Wide-EP），高效利用NVLink相干内存域；NVFP4量化技术在保持精度的同时大幅减少计算与内存开销；NVIDIA Dynamo框架实现预填充与解码阶段的速率匹配与解耦，显著提升长上下文任务表现。此外，vLLM、SGLang等框架也已集成对Mistral Large 3的支持，包括推测解码（EAGLE）与多标记预测（MTP）等前沿优化，未来将进一步释放性能潜力。与此同时，Mistral AI还推出三款轻量级的Ministral 3模型（3B、8B、14B），专为边缘设备优化，支持Base、Instruct与Reasoning三种模式，可在NVIDIA GeForce RTX AI PC、DGX Spark、Jetson等平台高效运行。通过与Llama.cpp、Ollama等框架合作，开发者可在本地实现低延迟、高隐私的AI推理，例如在RTX 5090上实现最高385 token/秒的推理速度，Jetson Thor上单并发达52 token/秒，8并发可达273 token/秒。企业用户可通过NVIDIA API目录快速接入Mistral Large 3与Ministral-14B-Instruct模型，未来还将支持下载式NVIDIA NIM微服务，实现跨GPU基础设施的无缝部署。结合NVIDIA NeMo工具链（如数据设计、定制化、安全护栏与Agent工具包），企业可加速从原型到生产落地的全流程。 Mistral 3系列的发布标志着“分布式智能”时代的加速到来——通过连接前沿研究与实际应用，将高性能AI能力从云端延伸至边缘，真正实现“AI everywhere”。该系列模型现已全面开放，开发者可前往Hugging Face或build.nvidia.com/mistralai免费获取，推动全球AI创新的民主化与普及。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

NVIDIA携手Mistral AI推出加速版开源大模型

相关链接

Command Palette

NVIDIA携手Mistral AI推出加速版开源大模型

相关链接

Command Palette

NVIDIA携手Mistral AI推出加速版开源大模型

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟