HyperAIHyperAI
vor 2 Tagen

LiveMCP-101: Stress-Tests und Diagnose von MCP-fähigen Agenten bei anspruchsvollen Abfragen

Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song
LiveMCP-101: Stress-Tests und Diagnose von MCP-fähigen Agenten bei anspruchsvollen Abfragen
Abstract

Tool Calling ist zu einer entscheidenden Fähigkeit für KI-Agenten geworden, um mit der realen Welt zu interagieren und komplexe Aufgaben zu lösen. Während das Model Context Protocol (MCP) einen leistungsfähigen standardisierten Rahmen für die Integration von Tools bietet, besteht eine erhebliche Lücke im Bereich der Benchmarking-Evaluation, wie gut KI-Agenten in realistischen, dynamischen Szenarien mehrschrittige Aufgaben mithilfe vielfältiger MCP-Tools effektiv lösen können. In dieser Arbeit präsentieren wir LiveMCP-101, einen Benchmark mit 101 sorgfältig zusammengestellten, realen Anfragen, die durch iterative Neuschreibungen mittels großen Sprachmodellen (LLMs) und manuelle Überarbeitung verfeinert wurden. Diese Aufgaben erfordern die koordinierte Nutzung mehrerer MCP-Tools, darunter Web-Suche, Dateioperationen, mathematische Schlussfolgerungen sowie Datenanalyse. Darüber hinaus führen wir einen neuartigen Evaluationsansatz ein, der statt der rohen API-Ausgaben wahre Ausführungspläne nutzt und somit die sich stetig verändernden Gegebenheiten realer Umgebungen besser widerspiegelt. Experimente zeigen, dass selbst fortschrittliche LLMs eine Erfolgsrate unter 60 % erreichen, was die erheblichen Herausforderungen bei der Orchestrierung von Tools aufzeigt. Detaillierte Ablationsstudien und Fehleranalysen offenbaren zudem unterschiedliche Fehlermuster sowie ineffiziente Token-Nutzung, was konkrete Verbesserungspfade für derzeitige Modelle aufzeigt. LiveMCP-101 legt einen strengen Standard für die Bewertung realweltrelevanter Agentenfähigkeiten fest und trägt damit entscheidend zur Entwicklung autonomer KI-Systeme bei, die komplexe Aufgaben zuverlässig durch den Einsatz von Tools ausführen können.