Command Palette
Search for a command to run...
MCP-Bench: Benchmark-Tool für das Verwenden von LLM-Agenten mit komplexen Aufgaben aus der realen Welt über MCP-Server

Abstract
Wir stellen MCP-Bench vor, einen Benchmark zur Bewertung großer Sprachmodelle (LLMs) anhand realistischer, mehrschrittiger Aufgaben, die den Einsatz von Werkzeugen, die Koordination zwischen verschiedenen Werkzeugen, präzise Parametersteuerung sowie Planung und Schlussfolgerung erfordern. MCP-Bench basiert auf dem Model Context Protocol (MCP) und verbindet LLMs mit 28 repräsentativen, aktiven MCP-Servern, die über insgesamt 250 Werkzeuge aus Bereichen wie Finanzen, Reisen, wissenschaftliches Rechnen und akademische Suche verfügen. Im Gegensatz zu früheren API-basierten Benchmarks bietet jeder MCP-Server eine Reihe komplementärer Werkzeuge, die gezielt auf Zusammenarbeit ausgelegt sind, wodurch authentische, mehrschrittige Aufgaben mit komplexer Eingabe-Ausgabe-Wechselwirkung erstellt werden können. Die Aufgaben in MCP-Bench testen die Fähigkeit von Agenten, relevante Werkzeuge aus unscharfen Anweisungen ohne explizite Werkzeugnamen zu identifizieren, mehrschrittige Ausführungsstrategien für komplexe Ziele zu planen, Antworten an Zwischenresultaten von Werkzeugen zu orientieren und interdisziplinäre Arbeitsabläufe zu koordinieren – Fähigkeiten, die durch bestehende Benchmarks, die auf expliziten Werkzeugbeschreibungen, oberflächlichen Few-Step-Workflows und isolierten Domänenoperationen basieren, nicht ausreichend bewertet werden. Wir schlagen einen mehrschichtigen Bewertungsrahmen vor, der Werkzeug-Ebene Schema-Verständnis und -Nutzung, Ausführungsstrategie-Ebene Planung sowie Aufgabenabschluss abdeckt. Experimente mit 20 fortschrittlichen LLMs offenbaren erhebliche Herausforderungen in MCP-Bench. Code und Daten: https://github.com/Accenture/mcp-bench.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.