MiniMax-M2.5が登場:1時間1ドルで動作する最先端エージェントモデル、コードからオフィス作業まで対応
2026年2月12日、上海に拠点を置くAI企業MiniMaxは、新世代の最先端モデル「MiniMax-M2.5」を発表した。同モデルは香港市場でのIPOからわずか1か月後であり、その性能は既存のトップモデルと並ぶ水準に達している。SWE-Bench Verifiedでは80.2%、Multi-SWE-Benchでは51.3%(首位)を記録し、Claude Opus 4.6やGPT-5.2を上回る結果を示した。また、ブラウジングタスクを評価するBrowseCompでは76.3%を達成。特に注目すべきは、100トークン/秒の継続動作で1時間あたり約1ドルという極めて低コストな運用。これは、同クラスのモデルの中でも破格の価格設定である。 M2.5は2300億パラメータのMixture-of-Experts(MoE)アーキテクチャを採用しており、1回の推論で100億パラメータのみが活性化される。これにより、膨大な計算資源を必要としないながらも、高度な能力を実現。コード生成だけでなく、Word、Excel、PowerPointなどオフィス生産性ツールの操作も可能。APIは「Lightning」(高速)と「Standard」(低コスト)の2種類が提供され、特にStandard版はClaude OpusやGLM-5に比べて数倍のコスト効率を発揮する。 技術的な鍵は、自社開発の強化学習フレームワーク「Forge」。この仕組みにより、複数のエージェントフレームワーク(Claude Code、Droidなど)を統合して訓練でき、特定のインターフェースに依存せず汎化能力を高める。20万以上の実世界環境で訓練され、社内業務も含む多様なタスクに適応。強化学習の効率化には、CISPO(重要度サンプリングのクリッピング)や非同期スケジューリング、プロセスレベルの報酬設計といった独自技術を導入。訓練期間はわずか2か月で、M1モデルの3週間と比較しても高速かつ低コスト。 M2.5の特徴として、タスク実行前に計画を立てる「自己計画行動」が顕著に現れ、結果としてトークン消費が効率化された。また、Office作業における性能評価では、主流モデルと比較して59.0%の勝率を記録。同社のエージェントプラットフォーム「MiniMax Agent」では、1万件以上の専門エージェントが構築されている。 ただし、OpenHandsによる独立評価では、一部のタスクで誤ったブランチプッシュやフォーマットミスが報告されており、生産環境での安定性には課題がある。それでも、M2.5は「10,000ドルで1年間4台のモデルを動かせる」というコストパフォーマンスで、AIエージェントの実用化への道を示している。今後の技術ブログで明らかになるForgeのスケーリング法や、実際の性能向上の限界が注目される。
