vor 4 Monaten

Zijian Wu Xiangyan Liu Xinyuan Zhang Lingjun Chen Fanqing Meng Lingxiao Du Yiran Zhao Fanshi Zhang Yaoqi Ye Jiawei Wang

Zusammenfassung

MCP standardisiert die Interaktion von großen Sprachmodellen (LLMs) mit externen Systemen und bildet die Grundlage für allgemeine Agenten. Bestehende MCP-Benchmarks sind jedoch aufgrund ihres engen Fokus eingeschränkt: Sie konzentrieren sich auf lesedominante Aufgaben oder Aufgaben mit geringer Interaktionstiefe und erfassen daher nicht die Komplexität und Realitätsnähe tatsächlicher Arbeitsabläufe. Um diese Lücke zu schließen, stellen wir MCPMark vor – einen Benchmark, der die Nutzung von MCP in einer realistischeren und umfassenderen Weise bewertet. MCPMark umfasst 127 hochwertige Aufgaben, die gemeinsam von Fachexperten und KI-Agenten entwickelt wurden. Jede Aufgabe beginnt mit einem sorgfältig ausgewählten Ausgangszustand und verfügt über einen programmatischen Skript zur automatisierten Validierung. Die Aufgaben erfordern reichhaltigere und vielfältigere Interaktionen mit der Umgebung und umfassen eine breite Palette von Create, Read, Update und Delete (CRUD)-Operationen. Wir führen eine umfassende Evaluation state-of-the-art LLMs durch, wobei ein minimaler Agentenframework in einem Tool-Aufruf-Loop arbeitet. Empirische Ergebnisse zeigen, dass das bestperformende Modell, gpt-5-medium, lediglich 52,56 % pass@1 und 33,86 % pass^4 erreicht, während andere allgemein als leistungsstark angesehene Modelle wie claude-sonnet-4 und o3 unter 30 % pass@1 und 15 % pass^4 liegen. Im Durchschnitt benötigen LLMs 16,2 Ausführungszyklen und 17,4 Tool-Aufrufe pro Aufgabe – Werte, die deutlich über denen früherer MCP-Benchmarks liegen und die herausfordernde, stress-test-ähnliche Natur von MCPMark unterstreichen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 4 Monaten

Zijian Wu Xiangyan Liu Xinyuan Zhang Lingjun Chen Fanqing Meng Lingxiao Du Yiran Zhao Fanshi Zhang Yaoqi Ye Jiawei Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 4 Monaten

Zijian Wu Xiangyan Liu Xinyuan Zhang Lingjun Chen Fanqing Meng Lingxiao Du Yiran Zhao Fanshi Zhang Yaoqi Ye Jiawei Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

MCPMark: Ein Benchmark zur Belastungstestung realistischer und umfassender MCP-Nutzung | Paper | HyperAI

Command Palette

MCPMark: Ein Benchmark zur Belastungstestung realistischer und umfassender MCP-Nutzung

Zijian Wu Xiangyan Liu Xinyuan Zhang Lingjun Chen Fanqing Meng Lingxiao Du Yiran Zhao Fanshi Zhang Yaoqi Ye Jiawei Wang5 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MCPMark: Ein Benchmark zur Belastungstestung realistischer und umfassender MCP-Nutzung

Zijian Wu Xiangyan Liu Xinyuan Zhang Lingjun Chen Fanqing Meng Lingxiao Du Yiran Zhao Fanshi Zhang Yaoqi Ye Jiawei Wang5 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MCPMark: Ein Benchmark zur Belastungstestung realistischer und umfassender MCP-Nutzung

Zijian Wu Xiangyan Liu Xinyuan Zhang Lingjun Chen Fanqing Meng Lingxiao Du Yiran Zhao Fanshi Zhang Yaoqi Ye Jiawei Wang5 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Zijian Wu Xiangyan Liu Xinyuan Zhang Lingjun Chen Fanqing Meng Lingxiao Du Yiran Zhao Fanshi Zhang Yaoqi Ye Jiawei Wang

Zijian Wu Xiangyan Liu Xinyuan Zhang Lingjun Chen Fanqing Meng Lingxiao Du Yiran Zhao Fanshi Zhang Yaoqi Ye Jiawei Wang

Zijian Wu Xiangyan Liu Xinyuan Zhang Lingjun Chen Fanqing Meng Lingxiao Du Yiran Zhao Fanshi Zhang Yaoqi Ye Jiawei Wang