MiniMax M3、NVIDIAで長文・エージェント対応
エンタープライズAIの普及に伴い、テキスト・ビジョン・コード用モデルの分断されたパイプライン運用は複雑化と高コストを招いていた。この課題を解決するため、MiniMaxが公開した多モーダルモデル「MiniMax M3」がNVIDIAのアクセラレーテッドインフラ上で提供され、開発環境を統合している。 MiniMax M3は428BパラメータのMoEアーキテクチャを採用し、テキスト・画像・動画をステップゼロから約100兆トークンでネイティブ学習済みである。視覚エンコーダは600M、推論時アクティブパラメータは22B。最大1Mトークンのコンテキスト長に対応し、BF16とMXFP8形式で動作する。最大の技術的革新はMiniMax Sparse Attention(MSA)アルゴリズムにある。二次計算を回避し関連ブロックを事前フィルタリングすることでKVキャッシュ読み取りを1回の連続アクセスに最適化。既存実装より4倍高速化し、計算量を1/20に抑えつつ、プリフィルとディコードをそれぞれ9倍、15倍に高速化した。精度劣化なしで長期推論を可能にする。 開発者はTensorRT-LLM、SGLang、vLLMの主要推論エンジンと連携可能であり、公式ドキュメントにより低遅延または高スループット向けの構成が提供される。分散推論プラットフォーム「Dynamo」を併用することで、NVIDIA Blackwell環境においてプリフィルとディコードをGPU間で分離するディシントグレイテッド推論が実現。32k ISL条件下で対話レスポンスが4倍改善され、リソース効率とスケーラビリティを両立する。NVIDIA NeMo Frameworkによるファインチューニングもオープンソース環境で実行できる。 現在、MiniMax M3はbuild.nvidia.comのGPU加速APIおよびHugging Faceから利用可能である。モデル統合によるパイプラインの簡素化は、長時間ビデオ解析や拡張コーディング、エージェント型ワークフローの実用化を加速させる。エンタープライズにおけるAI開発の生産性とスケーラビリティが大幅に向上する見込みである。
