Command Palette
Search for a command to run...

要約
本稿では、ツールの活用、複数ツール間の連携、正確なパラメータ制御、およびタスク解決に向けた計画・推論を要する、現実的で多段階のタスクを評価するためのベンチマーク「MCP-Bench」を紹介する。MCP-Benchは、Model Context Protocol(MCP)に基づき構築されており、金融、旅行、科学計算、学術検索など多様な分野にまたがる250種類のツールを提供する28の代表的なライブMCPサーバーとLLMを接続している。従来のAPIベースのベンチマークとは異なり、各MCPサーバーは相互に補完的に機能するツール群を提供しており、豊富な入出力連携を持つ本物らしく多段階のタスクの構築を可能にしている。MCP-Benchに含まれるタスクは、明示的なツール名を含まない曖昧な指示から関連するツールを検索する能力、複雑な目的に対する多段階の実行経路を計画する能力、中間的なツール出力を根拠として応答を定義する能力、および異分野間のワークフローを統合的に制御する能力を評価するものである。これらは、明示的なツール仕様に依存する既存のベンチマークでは十分に評価されていない能力である。本研究では、ツールレベルのスキーマ理解と利用、経路レベルの計画、タスク完了度の3つの側面をカバーする多面的な評価フレームワークを提案する。20種類の先進的LLMを対象とした実験により、MCP-Benchにおいても依然として顕著な課題が明らかになった。コードとデータ:https://github.com/Accenture/mcp-bench