Command Palette
Search for a command to run...

要約
MCPは、大規模言語モデル(LLM)が外部システムと相互作用する方法を標準化し、汎用エージェントの基盤を形成している。しかし、現在のMCPベンチマークは範囲が限定的であり、読み込み中心のタスクや相互作用の深さが限られたタスクに焦点を当てており、現実世界のワークフローの複雑さや現実性を十分に捉えていない。このギャップを埋めるために、我々はMCPの実用性をより現実的かつ包括的に評価できるよう設計されたベンチマーク「MCPMark」を提案する。MCPMarkは、分野の専門家とAIエージェントが共同で作成した高品質な127のタスクから構成されている。各タスクは整理された初期状態から始まり、自動検証を可能にするプログラムによるスクリプトを備えている。これらのタスクは、環境とのより豊かで多様な相互作用を要求し、作成(Create)、読取(Read)、更新(Update)、削除(Delete)というCRUD操作の幅広い組み合わせを含む。我々は、ツール呼び出しループを用いて動作する最小限のエージェントフレームワークを用いて、最先端のLLMを包括的に評価した。実験結果から、最も性能の高いモデルであるgpt-5-mediumでも、pass@1は52.56%、pass^4は33.86%にとどまり、他に広く評価されている強力なモデルであるclaude-sonnet-4やo3も、pass@1が30%未満、pass^4が15%未満にとどまった。平均して、LLMは1タスクあたり16.2回の実行ターンと17.4回のツール呼び出しを必要とし、従来のMCPベンチマークと比べて著しく高い水準に達しており、MCPMarkがエージェントの耐久性を厳しく試す性質を持っていることを示している。