HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

MCP-Bench: Benchmark-Tool für das Verwenden von LLM-Agenten mit komplexen Aufgaben aus der realen Welt über MCP-Server

MCP-Bench: Benchmark-Tool für das Verwenden von LLM-Agenten mit komplexen Aufgaben aus der realen Welt über MCP-Server

Abstract

Wir stellen MCP-Bench vor, einen Benchmark zur Bewertung großer Sprachmodelle (LLMs) anhand realistischer, mehrschrittiger Aufgaben, die den Einsatz von Werkzeugen, die Koordination zwischen verschiedenen Werkzeugen, präzise Parametersteuerung sowie Planung und Schlussfolgerung erfordern. MCP-Bench basiert auf dem Model Context Protocol (MCP) und verbindet LLMs mit 28 repräsentativen, aktiven MCP-Servern, die über insgesamt 250 Werkzeuge aus Bereichen wie Finanzen, Reisen, wissenschaftliches Rechnen und akademische Suche verfügen. Im Gegensatz zu früheren API-basierten Benchmarks bietet jeder MCP-Server eine Reihe komplementärer Werkzeuge, die gezielt auf Zusammenarbeit ausgelegt sind, wodurch authentische, mehrschrittige Aufgaben mit komplexer Eingabe-Ausgabe-Wechselwirkung erstellt werden können. Die Aufgaben in MCP-Bench testen die Fähigkeit von Agenten, relevante Werkzeuge aus unscharfen Anweisungen ohne explizite Werkzeugnamen zu identifizieren, mehrschrittige Ausführungsstrategien für komplexe Ziele zu planen, Antworten an Zwischenresultaten von Werkzeugen zu orientieren und interdisziplinäre Arbeitsabläufe zu koordinieren – Fähigkeiten, die durch bestehende Benchmarks, die auf expliziten Werkzeugbeschreibungen, oberflächlichen Few-Step-Workflows und isolierten Domänenoperationen basieren, nicht ausreichend bewertet werden. Wir schlagen einen mehrschichtigen Bewertungsrahmen vor, der Werkzeug-Ebene Schema-Verständnis und -Nutzung, Ausführungsstrategie-Ebene Planung sowie Aufgabenabschluss abdeckt. Experimente mit 20 fortschrittlichen LLMs offenbaren erhebliche Herausforderungen in MCP-Bench. Code und Daten: https://github.com/Accenture/mcp-bench.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MCP-Bench: Benchmark-Tool für das Verwenden von LLM-Agenten mit komplexen Aufgaben aus der realen Welt über MCP-Server | Forschungsarbeiten | HyperAI