vor 5 Monaten

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao

Zusammenfassung

Wir stellen MCP-Bench vor, einen Benchmark zur Bewertung großer Sprachmodelle (LLMs) anhand realistischer, mehrschrittiger Aufgaben, die den Einsatz von Werkzeugen, die Koordination zwischen verschiedenen Werkzeugen, präzise Parametersteuerung sowie Planung und Schlussfolgerung erfordern. MCP-Bench basiert auf dem Model Context Protocol (MCP) und verbindet LLMs mit 28 repräsentativen, aktiven MCP-Servern, die über insgesamt 250 Werkzeuge aus Bereichen wie Finanzen, Reisen, wissenschaftliches Rechnen und akademische Suche verfügen. Im Gegensatz zu früheren API-basierten Benchmarks bietet jeder MCP-Server eine Reihe komplementärer Werkzeuge, die gezielt auf Zusammenarbeit ausgelegt sind, wodurch authentische, mehrschrittige Aufgaben mit komplexer Eingabe-Ausgabe-Wechselwirkung erstellt werden können. Die Aufgaben in MCP-Bench testen die Fähigkeit von Agenten, relevante Werkzeuge aus unscharfen Anweisungen ohne explizite Werkzeugnamen zu identifizieren, mehrschrittige Ausführungsstrategien für komplexe Ziele zu planen, Antworten an Zwischenresultaten von Werkzeugen zu orientieren und interdisziplinäre Arbeitsabläufe zu koordinieren – Fähigkeiten, die durch bestehende Benchmarks, die auf expliziten Werkzeugbeschreibungen, oberflächlichen Few-Step-Workflows und isolierten Domänenoperationen basieren, nicht ausreichend bewertet werden. Wir schlagen einen mehrschichtigen Bewertungsrahmen vor, der Werkzeug-Ebene Schema-Verständnis und -Nutzung, Ausführungsstrategie-Ebene Planung sowie Aufgabenabschluss abdeckt. Experimente mit 20 fortschrittlichen LLMs offenbaren erhebliche Herausforderungen in MCP-Bench. Code und Daten: https://github.com/Accenture/mcp-bench.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

MCP-Bench: Benchmark-Tool für das Verwenden von LLM-Agenten mit komplexen Aufgaben aus der realen Welt über MCP-Server | Paper | HyperAI

Command Palette

MCP-Bench: Benchmark-Tool für das Verwenden von LLM-Agenten mit komplexen Aufgaben aus der realen Welt über MCP-Server

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MCP-Bench: Benchmark-Tool für das Verwenden von LLM-Agenten mit komplexen Aufgaben aus der realen Welt über MCP-Server

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MCP-Bench: Benchmark-Tool für das Verwenden von LLM-Agenten mit komplexen Aufgaben aus der realen Welt über MCP-Server

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao