NVIDIAとMistral AIが協力、ミストラル3シリーズのオープンモデルをGPUで高速化
Mistral AIは2023年12月2日、NVIDIAと協力して開発した「Mistral 3」シリーズのオープンソースモデルを発表した。このシリーズは、クラウドからエッジまで幅広い環境で利用可能な多言語・マルチモーダルAIモデル群で、大規模な混合専門家モデル(MoE)「Mistral Large 3」および3B、8B、14Bの小規模な「Ministral-3」シリーズから構成される。Mistral Large 3は6750億の総パラメータ、410億のアクティブパラメータを有し、256Kの長文コンテキスト窓を備え、効率的かつ高精度な推論を実現。その中核は、NVIDIA GB200 NVL72システム上で最適化されたMoEアーキテクチャで、NVIDIAのNVLinkによる一貫したメモリドメインとWide Expert Parallelism(Wide-EP)の最適化により、専門家単位の効率的な並列処理が可能。これにより、従来のH200と比較して最大10倍のパフォーマンス向上、1秒あたり500万トークン以上のエネルギー効率を達成。特に、NVFP4というBlackwellアーキテクチャ専用の低精度量子化技術を活用し、計算コストとメモリ使用量を削減しつつ、精度の損失を最小限に抑える。 Mistral Large 3は、NVIDIA Dynamoによる推論フェーズの分離(prefill/decodeのレートマッチング)と、vLLM、SGLang、TensorRT-LLMなどのフレームワークとの連携により、長文処理や高並行なワークロードでも高性能を発揮。今後、多トークン予測による推測的デコード(EAGLE-3)などの最適化が予定されており、さらなる性能向上が期待される。一方、Ministral-3シリーズはエッジデバイス向けに設計され、NVIDIA GeForce RTX AI PC、DGX Spark、Jetson Thorなどでの高速推論を実現。Ollamaやllama.cppとの連携により、ローカル開発でも低遅延・高プライバシーを実現。RTX 5090では3Bモデルで最大385トークン/秒、Jetson Thorでは8並列で273トークン/秒の推論が可能。 すべてのモデルはHugging Faceで公開され、NVIDIA NIMマイクロサービスとしての提供も予定。NVIDIA NeMoツールキットと連携することで、企業はデータ設計、カスタマイズ、ガードレール設定、エージェント開発までを一貫して行える。この発表は、研究の進展を実世界の応用に結びつける「分散知能」の時代を示す重要な一歩と位置づけられる。Mistral AIとNVIDIAの協力により、開発者はフレームワークやハードウェアの選択にとらわれず、自由にAIを構築・展開できる環境が整った。
