2日前
LiveMCP-101:挑戦的なクエリにおけるMCP対応エージェントのストレステストと診断
Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song

要約
ツールコールは、AIエージェントが現実世界と相互作用し、複雑なタスクを解決するための重要な能力として浮上している。一方で、モデルコンテキストプロトコル(MCP)は、ツール統合に向けた強力な標準化フレームワークを提供しているものの、現実的で動的なシナリオにおいて、多様なMCPツールを活用して複数ステップのタスクを効果的に解くAIエージェントの性能を評価するためのベンチマークは依然として不足している。本研究では、反復的なLLMによる再構成と手動レビューを経て精査された、101の実世界に即したクエリから構成されるベンチマーク「LiveMCP-101」を提案する。これらのクエリは、ウェブ検索、ファイル操作、数学的推論、データ分析など複数のMCPツールを連携して使用する必要があり、現実世界の複雑な状況を再現している。さらに、単なるAPI出力ではなく、真の実行計画(ground-truth execution plans)を活用する新たな評価手法を導入することで、現実世界の環境が変化し続ける性質をより適切に反映している。実験の結果、最先端のLLMですら成功確率が60%を下回る結果となり、ツールの調整(orchestration)における大きな課題が浮き彫りになった。詳細なアブレーションとエラー分析から、異なる失敗モードやトークン使用の非効率性が明らかとなり、現行モデルの改善に向けた具体的な方向性が示された。LiveMCP-101は、実世界におけるエージェント能力を評価するための厳格な基準を提示し、ツールを活用して複雑なタスクを確実に実行できる自律型AIシステムの実現に向けた重要な一歩を踏み出した。