HyperAI

北京に拠点を置くMoonshot AIは2026年1月27日、Kimi K2.5をリリースした。同モデルは1.04兆パラメータの大型オープン重みモデルで、1トークンあたり320億パラメータがアクティブ化され、GLM-5やQwen3.5、MiniMax-M2.5を上回る規模。384のエキスパートから8つを同時選択するMLAアテンション構造を採用し、256Kの長文コンテキスト窓を実現。視覚能力の強化には、SigLIP-SO-400Mを基盤とする4億パラメータのMoonViT-3Dを用い、可変解像度画像に対応するNaViTパッキング戦略を導入。動画処理では4フレームをグループ化し、時系列的にプーリングすることで4倍の圧縮を実現。訓練データは、15TのテキストのみからスタートしたK2のチェックポイントを基に、追加で約15Tの視覚・テキスト混合データ、約1TのViT訓練データ、700Bの長文中間訓練データを加え、合計約32Tのトークンで学習された。最も注目すべきは「Agent Swarm」機能。並列型エージェント強化学習（PARL）によって、問題を並列に分解し、固定されたサブエージェントに割り当てる仕組み。オーガナイザーは学習可能だが、サブエージェントは固定された中間チェックポイントから生成され、最終的な最適化はオーガナイザーのみが更新される。この設計により、エラーの責任帰属（信用配分）の困難を回避。訓練では「逐次的崩壊」（すべてを順次実行）と「偽並列化」（無意味なエージェント生成）という2つの問題を補正。結果、BrowseCompは60.6%から78.4%へ、WideSearch F1は72.7%から79.0%へ向上。実行時間は3〜4.5倍高速化された。ベンチマークでは、HLE-Full（50.2%）、OCR-Bench（92.3%）、MathVista（90.1%）、InfoVQA（92.6%）でトップクラス。ただし、AIME 2025（96.1%）やGPQA-Diamond（87.6%）ではGPT-5.2やQwen3.5に及ばず、WeirdMLでは46%と大幅に劣る。人工分析のAA-Omniscience指数では-11と、他の先進モデルより幻覚が多い。コミュニティの反応では、コーディング能力は前向きに評価され、特にフロントエンドや視覚からコード生成で優位。ただし初回出力は冗長で過剰設計傾向が見られ、OpusやCodexに比べて修正が必要なケースが多い。Agent Swarmは並列検索では効果的だが、出力の整合性が保てず、共通概念の定義がエージェントごとに異なるケースも。コスト面では、1タスクあたりの出力トークンが平均の6倍以上（8900万トークン）に達し、価格が安いとはいえ、実効コストは高くなる。実行には約595GBのメモリを要し、24GB GPUでRAMオフロードが必要。実用的なのはUnslothの1.8ビット量子化（約240GB）による実行。API提供は8社あり、Fireworksが速度（283トークン/秒）、DeepInfraが価格（0.90ドル/100万トークン）で優位。GGUF/llama.cppでの視覚サポートは未対応。 K2.5は視覚能力と並列エージェント処理の革新性を示すが、冗長性とコストが課題。競争激化する中、用途に応じた選定が不可欠。PARLの汎用性が今後の鍵となる。

関連リンク

関連リンク

関連リンク

オンラインチュートリアル｜ワンクリックでComfyUIワークフローをロード：コードを一行も書かずにAI描画をマスターする

オンラインチュートリアル｜ワンクリックでComfyUIワークフローをロード：コードを一行も書かずにAI描画をマスターする

Command Palette

Kimi K2.5、2週間経過で実力は？ 視覚性能と「エージェントスウォーム」が注目

関連リンク

Command Palette

Kimi K2.5、2週間経過で実力は？ 視覚性能と「エージェントスウォーム」が注目

関連リンク

Command Palette

Kimi K2.5、2週間経過で実力は？ 視覚性能と「エージェントスウォーム」が注目

関連リンク

オンラインチュートリアル｜ワンクリックでComfyUIワークフローをロード：コードを一行も書かずにAI描画をマスターする

オンラインチュートリアル｜ワンクリックでComfyUIワークフローをロード：コードを一行も書かずにAI描画をマスターする

Kimi K2.5、2週間経過で実力は？視覚性能と「エージェントスウォーム」が注目

Kimi K2.5、2週間経過で実力は？視覚性能と「エージェントスウォーム」が注目

Kimi K2.5、2週間経過で実力は？視覚性能と「エージェントスウォーム」が注目