4ヶ月前

概要

モデルコンテキストプロトコル（MCP）は、エージェントとツールの統合および相互運用性を向上させる目的で設計された、急速に注目される重要なオープン標準として浮上しつつある。MCPは、強力で相互接続性に富み、本物の実用性を備えたエージェント型AIの新時代を切り開く可能性を秘めている。しかし、MCPの採用が広がる一方で、既存のベンチマークはこの新パラダイムにおけるエージェントの実世界での性能を適切に捉えておらず、その本質的な運用価値に対する誤解を生み、能力の差を信頼性高く区別できない状況に陥っている。この重要な評価ギャップを埋めるため、本研究ではMCPを介したツール連携における言語エージェントの能力を厳密に評価することを目的とした包括的ベンチマーク「MCP-AgentBench」を提案する。MCP-AgentBenchの主な貢献は以下の通りである：33の運用サーバーと188種類の異なるツールを備えた堅牢なMCPテストベッドの構築、6つの異なる相互作用の複雑さを有するカテゴリに分類され、600件の体系的に設計されたクエリを含むベンチマークの開発、および実世界のタスク達成を重視する成果志向の評価手法「MCP-Eval」の導入。主要な言語エージェントを対象とした広範な実証的評価を通じて、基盤的な知見を提示する。MCP-AgentBenchは、研究コミュニティがMCPの変革的利点を最大限に活用できるエージェントの構築、検証、発展を可能にする標準的かつ信頼性の高いフレームワークを提供することを目的としており、真に実用的かつ相互運用性を備えたAIシステムの実現に向けた進展を加速することを狙っている。

ソースPDF