Command Palette

Search for a command to run...

13日前

MCP-AgentBench:MCPを介したツールを用いた現実世界の言語エージェント性能の評価

Zikang Guo Benfeng Xu Chiwei Zhu Wentao Hong Xiaorui Wang Zhendong Mao

MCP-AgentBench:MCPを介したツールを用いた現実世界の言語エージェント性能の評価

要約

モデルコンテキストプロトコル(MCP)は、エージェントとツールの統合および相互運用性を向上させる目的で設計された、急速に注目される重要なオープン標準として浮上しつつある。MCPは、強力で相互接続性に富み、本物の実用性を備えたエージェント型AIの新時代を切り開く可能性を秘めている。しかし、MCPの採用が広がる一方で、既存のベンチマークはこの新パラダイムにおけるエージェントの実世界での性能を適切に捉えておらず、その本質的な運用価値に対する誤解を生み、能力の差を信頼性高く区別できない状況に陥っている。この重要な評価ギャップを埋めるため、本研究ではMCPを介したツール連携における言語エージェントの能力を厳密に評価することを目的とした包括的ベンチマーク「MCP-AgentBench」を提案する。MCP-AgentBenchの主な貢献は以下の通りである:33の運用サーバーと188種類の異なるツールを備えた堅牢なMCPテストベッドの構築、6つの異なる相互作用の複雑さを有するカテゴリに分類され、600件の体系的に設計されたクエリを含むベンチマークの開発、および実世界のタスク達成を重視する成果志向の評価手法「MCP-Eval」の導入。主要な言語エージェントを対象とした広範な実証的評価を通じて、基盤的な知見を提示する。MCP-AgentBenchは、研究コミュニティがMCPの変革的利点を最大限に活用できるエージェントの構築、検証、発展を可能にする標準的かつ信頼性の高いフレームワークを提供することを目的としており、真に実用的かつ相互運用性を備えたAIシステムの実現に向けた進展を加速することを狙っている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MCP-AgentBench:MCPを介したツールを用いた現実世界の言語エージェント性能の評価 | 論文 | HyperAI超神経