Command Palette
Search for a command to run...
MCP-AgentBench : Évaluation des performances des agents linguistiques dans le monde réel à l'aide d'outils pilotés par MCP
Zikang Guo Benfeng Xu Chiwei Zhu Wentao Hong Xiaorui Wang Zhendong Mao

Résumé
Le Modèle de contexte (MCP) émerge rapidement comme une norme ouverte essentielle, conçue pour améliorer l’intégration et l’interopérabilité des agents outils, et s’impose comme un levier clé pour ouvrir une nouvelle ère d’IA agente puissante, interconnectée et véritablement utilitaire. Toutefois, malgré l’adoption croissante de MCP, les évaluations existantes peinent souvent à capturer le véritable performance des agents dans ce nouveau paradigme, entraînant une perception déformée de leur valeur opérationnelle réelle et une incapacité à distinguer de manière fiable leurs compétences. Pour combler cette lacune critique en évaluation, nous introduisons MCP-AgentBench — un benchmark complet spécifiquement conçu pour évaluer rigoureusement les capacités des agents linguistiques dans les interactions outils pilotées par MCP. Les contributions centrales de MCP-AgentBench incluent : la mise en place d’un environnement de test robuste comprenant 33 serveurs opérationnels offrant 188 outils distincts ; le développement d’un benchmark intégrant 600 requêtes systématiquement conçues réparties en 6 catégories distinctes, chacune variant en complexité d’interaction ; et l’introduction de MCP-Eval, une nouvelle méthodologie d’évaluation axée sur les résultats, qui privilégie le succès des tâches dans un contexte réel. À travers une évaluation empirique approfondie des principaux agents linguistiques, nous fournissons des aperçus fondamentaux. MCP-AgentBench vise à doter la communauté de recherche d’un cadre standardisé et fiable, permettant de concevoir, valider et faire progresser des agents capables d’exploiter pleinement les avantages transformateurs de MCP, accélérant ainsi l’essor vers des systèmes d’IA véritablement performants et interopérables.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.