Command Palette
Search for a command to run...
MCP-AgentBench: Bewertung der Leistung realweltrelevanter Sprachagenten mit MCP-vermittelten Tools
Zikang Guo Benfeng Xu Chiwei Zhu Wentao Hong Xiaorui Wang Zhendong Mao

Abstract
Das Model Context Protocol (MCP) etabliert sich rasch als zentraler offener Standard, der darauf abzielt, die Integration und Interoperabilität von Agenten und Tools zu verbessern, und ist prädestiniert, ein neues Zeitalter leistungsstarker, miteinander verbundener und tatsächlich nützlicher agenter KI zu eröffnen. Dennoch führt die derzeitige, zunehmend verbreitete Nutzung von MCP dazu, dass etablierte Benchmarks oft die Leistungsfähigkeit von Agenten in der realen Anwendung innerhalb dieses neuen Paradigmas nicht adäquat erfassen. Dies resultiert in einer verzerrten Wahrnehmung ihres tatsächlichen operativen Nutzens und in der Unfähigkeit, Fähigkeiten zuverlässig zu differenzieren. Um diese kritische Bewertungslücke zu schließen, stellen wir MCP-AgentBench vor – ein umfassendes Benchmark-System, das speziell konzipiert wurde, um die Fähigkeiten von Sprachagenten in MCP-gesteuerten Tool-Interaktionen rigoros zu evaluieren. Zu den zentralen Beiträgen von MCP-AgentBench gehören: die Schaffung einer robusten MCP-Testumgebung mit 33 laufenden Servern und 188 unterschiedlichen Tools; die Entwicklung eines Benchmarks mit 600 systematisch entworfenen Anfragen, die sich über sechs unterschiedliche Kategorien mit variabler Interaktionskomplexität verteilen; sowie die Einführung von MCP-Eval, einer neuartigen, ergebnisorientierten Evaluationsmethode, die den Erfolg realwelttauglicher Aufgaben in den Vordergrund stellt. Durch umfassende empirische Evaluation führender Sprachagenten liefern wir grundlegende Erkenntnisse. MCP-AgentBench soll der Forschungsgemeinschaft ein standardisiertes und zuverlässiges Framework zur Verfügung stellen, um Agenten zu entwickeln, zu validieren und weiterzuentwickeln, die die transformatorischen Vorteile von MCP vollständig ausschöpfen können, und damit den Fortschritt hin zu wahrhaft leistungsfähigen und interoperablen KI-Systemen beschleunigen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.