HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

MCPMark: Ein Benchmark zur Belastungstestung realistischer und umfassender MCP-Nutzung

MCPMark: Ein Benchmark zur Belastungstestung realistischer und umfassender MCP-Nutzung

Abstract

MCP standardisiert die Interaktion von großen Sprachmodellen (LLMs) mit externen Systemen und bildet die Grundlage für allgemeine Agenten. Bestehende MCP-Benchmarks sind jedoch aufgrund ihres engen Fokus eingeschränkt: Sie konzentrieren sich auf lesedominante Aufgaben oder Aufgaben mit geringer Interaktionstiefe und erfassen daher nicht die Komplexität und Realitätsnähe tatsächlicher Arbeitsabläufe. Um diese Lücke zu schließen, stellen wir MCPMark vor – einen Benchmark, der die Nutzung von MCP in einer realistischeren und umfassenderen Weise bewertet. MCPMark umfasst 127 hochwertige Aufgaben, die gemeinsam von Fachexperten und KI-Agenten entwickelt wurden. Jede Aufgabe beginnt mit einem sorgfältig ausgewählten Ausgangszustand und verfügt über einen programmatischen Skript zur automatisierten Validierung. Die Aufgaben erfordern reichhaltigere und vielfältigere Interaktionen mit der Umgebung und umfassen eine breite Palette von Create, Read, Update und Delete (CRUD)-Operationen. Wir führen eine umfassende Evaluation state-of-the-art LLMs durch, wobei ein minimaler Agentenframework in einem Tool-Aufruf-Loop arbeitet. Empirische Ergebnisse zeigen, dass das bestperformende Modell, gpt-5-medium, lediglich 52,56 % pass@1 und 33,86 % pass^4 erreicht, während andere allgemein als leistungsstark angesehene Modelle wie claude-sonnet-4 und o3 unter 30 % pass@1 und 15 % pass^4 liegen. Im Durchschnitt benötigen LLMs 16,2 Ausführungszyklen und 17,4 Tool-Aufrufe pro Aufgabe – Werte, die deutlich über denen früherer MCP-Benchmarks liegen und die herausfordernde, stress-test-ähnliche Natur von MCPMark unterstreichen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MCPMark: Ein Benchmark zur Belastungstestung realistischer und umfassender MCP-Nutzung | Forschungsarbeiten | HyperAI