Command Palette
Search for a command to run...
LiveMCP-101:挑戦的なクエリにおけるMCP対応エージェントのストレステストと診断
LiveMCP-101:挑戦的なクエリにおけるMCP対応エージェントのストレステストと診断
概要
ツールコールは、AIエージェントが現実世界と相互作用し、複雑なタスクを解決するための重要な能力として浮上している。一方で、モデルコンテキストプロトコル(MCP)は、ツール統合に向けた強力な標準化フレームワークを提供しているものの、現実的で動的なシナリオにおいて、多様なMCPツールを活用して複数ステップのタスクを効果的に解くAIエージェントの性能を評価するためのベンチマークは依然として不足している。本研究では、反復的なLLMによる再構成と手動レビューを経て精査された、101の実世界に即したクエリから構成されるベンチマーク「LiveMCP-101」を提案する。これらのクエリは、ウェブ検索、ファイル操作、数学的推論、データ分析など複数のMCPツールを連携して使用する必要があり、現実世界の複雑な状況を再現している。さらに、単なるAPI出力ではなく、真の実行計画(ground-truth execution plans)を活用する新たな評価手法を導入することで、現実世界の環境が変化し続ける性質をより適切に反映している。実験の結果、最先端のLLMですら成功確率が60%を下回る結果となり、ツールの調整(orchestration)における大きな課題が浮き彫りになった。詳細なアブレーションとエラー分析から、異なる失敗モードやトークン使用の非効率性が明らかとなり、現行モデルの改善に向けた具体的な方向性が示された。LiveMCP-101は、実世界におけるエージェント能力を評価するための厳格な基準を提示し、ツールを活用して複雑なタスクを確実に実行できる自律型AIシステムの実現に向けた重要な一歩を踏み出した。