HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

MCP-Bench : Outil d'évaluation des agents LLM utilisant des outils dans des tâches réelles complexes via des serveurs MCP

MCP-Bench : Outil d'évaluation des agents LLM utilisant des outils dans des tâches réelles complexes via des serveurs MCP

Résumé

Nous introduisons MCP-Bench, un benchmark destiné à évaluer les grands modèles linguistiques (LLM) sur des tâches réalistes à plusieurs étapes, qui exigent l’utilisation d’outils, une coordination entre outils, un contrôle précis des paramètres, ainsi que la planification et le raisonnement pour résoudre des problèmes. Basé sur le Model Context Protocol (MCP), MCP-Bench relie les LLM à 28 serveurs MCP en direct représentatifs, couvrant au total 250 outils répartis dans des domaines tels que la finance, les voyages, le calcul scientifique et la recherche académique. Contrairement aux benchmarks basés sur des API précédents, chaque serveur MCP propose un ensemble d’outils complémentaires conçus pour fonctionner ensemble, permettant ainsi la construction de tâches réalistes à plusieurs étapes, caractérisées par des interactions riches entre entrées et sorties. Les tâches de MCP-Bench évaluent la capacité des agents à extraire les outils pertinents à partir d'instructions floues, sans nom d’outil explicite, à planifier des trajectoires d’exécution multi-étapes pour des objectifs complexes, à ancrer leurs réponses dans les sorties intermédiaires des outils, et à orchestrer des flux de travail transversaux entre domaines — des capacités que les benchmarks existants, fondés sur des spécifications d’outils explicites, des workflows à quelques étapes peu profonds et des opérations isolées par domaine, ne mesurent pas adéquatement. Nous proposons un cadre d’évaluation multidimensionnel couvrant la compréhension et l’utilisation au niveau des schémas d’outils, la planification au niveau des trajectoires, ainsi que la complétion des tâches. Des expérimentations menées sur 20 LLM avancés mettent en évidence des défis persistants dans MCP-Bench. Code et données : https://github.com/Accenture/mcp-bench.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MCP-Bench : Outil d'évaluation des agents LLM utilisant des outils dans des tâches réelles complexes via des serveurs MCP | Articles de recherche | HyperAI