Command Palette

Search for a command to run...

1ヶ月前

MCPMark:現実的で包括的なMCP利用のストレス試験を目的としたベンチマーク

MCPMark:現実的で包括的なMCP利用のストレス試験を目的としたベンチマーク

要約

MCPは、大規模言語モデル(LLM)が外部システムと相互作用する方法を標準化し、汎用エージェントの基盤を形成している。しかし、現在のMCPベンチマークは範囲が限定的であり、読み込み中心のタスクや相互作用の深さが限られたタスクに焦点を当てており、現実世界のワークフローの複雑さや現実性を十分に捉えていない。このギャップを埋めるために、我々はMCPの実用性をより現実的かつ包括的に評価できるよう設計されたベンチマーク「MCPMark」を提案する。MCPMarkは、分野の専門家とAIエージェントが共同で作成した高品質な127のタスクから構成されている。各タスクは整理された初期状態から始まり、自動検証を可能にするプログラムによるスクリプトを備えている。これらのタスクは、環境とのより豊かで多様な相互作用を要求し、作成(Create)、読取(Read)、更新(Update)、削除(Delete)というCRUD操作の幅広い組み合わせを含む。我々は、ツール呼び出しループを用いて動作する最小限のエージェントフレームワークを用いて、最先端のLLMを包括的に評価した。実験結果から、最も性能の高いモデルであるgpt-5-mediumでも、pass@1は52.56%、pass^4は33.86%にとどまり、他に広く評価されている強力なモデルであるclaude-sonnet-4やo3も、pass@1が30%未満、pass^4が15%未満にとどまった。平均して、LLMは1タスクあたり16.2回の実行ターンと17.4回のツール呼び出しを必要とし、従来のMCPベンチマークと比べて著しく高い水準に達しており、MCPMarkがエージェントの耐久性を厳しく試す性質を持っていることを示している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MCPMark:現実的で包括的なMCP利用のストレス試験を目的としたベンチマーク | 論文 | HyperAI超神経