HyperAIHyperAI

Command Palette

Search for a command to run...

Kimi K2.5、2週間経過で実力は? 視覚性能と「エージェントスウォーム」が注目

北京に拠点を置くMoonshot AIは2026年1月27日、Kimi K2.5をリリースした。同モデルは1.04兆パラメータの大型オープン重みモデルで、1トークンあたり320億パラメータがアクティブ化され、GLM-5やQwen3.5、MiniMax-M2.5を上回る規模。384のエキスパートから8つを同時選択するMLAアテンション構造を採用し、256Kの長文コンテキスト窓を実現。視覚能力の強化には、SigLIP-SO-400Mを基盤とする4億パラメータのMoonViT-3Dを用い、可変解像度画像に対応するNaViTパッキング戦略を導入。動画処理では4フレームをグループ化し、時系列的にプーリングすることで4倍の圧縮を実現。訓練データは、15TのテキストのみからスタートしたK2のチェックポイントを基に、追加で約15Tの視覚・テキスト混合データ、約1TのViT訓練データ、700Bの長文中間訓練データを加え、合計約32Tのトークンで学習された。 最も注目すべきは「Agent Swarm」機能。並列型エージェント強化学習(PARL)によって、問題を並列に分解し、固定されたサブエージェントに割り当てる仕組み。オーガナイザーは学習可能だが、サブエージェントは固定された中間チェックポイントから生成され、最終的な最適化はオーガナイザーのみが更新される。この設計により、エラーの責任帰属(信用配分)の困難を回避。訓練では「逐次的崩壊」(すべてを順次実行)と「偽並列化」(無意味なエージェント生成)という2つの問題を補正。結果、BrowseCompは60.6%から78.4%へ、WideSearch F1は72.7%から79.0%へ向上。実行時間は3〜4.5倍高速化された。 ベンチマークでは、HLE-Full(50.2%)、OCR-Bench(92.3%)、MathVista(90.1%)、InfoVQA(92.6%)でトップクラス。ただし、AIME 2025(96.1%)やGPQA-Diamond(87.6%)ではGPT-5.2やQwen3.5に及ばず、WeirdMLでは46%と大幅に劣る。人工分析のAA-Omniscience指数では-11と、他の先進モデルより幻覚が多い。コミュニティの反応では、コーディング能力は前向きに評価され、特にフロントエンドや視覚からコード生成で優位。ただし初回出力は冗長で過剰設計傾向が見られ、OpusやCodexに比べて修正が必要なケースが多い。Agent Swarmは並列検索では効果的だが、出力の整合性が保てず、共通概念の定義がエージェントごとに異なるケースも。 コスト面では、1タスクあたりの出力トークンが平均の6倍以上(8900万トークン)に達し、価格が安いとはいえ、実効コストは高くなる。実行には約595GBのメモリを要し、24GB GPUでRAMオフロードが必要。実用的なのはUnslothの1.8ビット量子化(約240GB)による実行。API提供は8社あり、Fireworksが速度(283トークン/秒)、DeepInfraが価格(0.90ドル/100万トークン)で優位。GGUF/llama.cppでの視覚サポートは未対応。 K2.5は視覚能力と並列エージェント処理の革新性を示すが、冗長性とコストが課題。競争激化する中、用途に応じた選定が不可欠。PARLの汎用性が今後の鍵となる。

関連リンク