Command Palette
Search for a command to run...
MCPMark : un benchmark pour tester la résilience des utilisations réalistes et complètes de l'agent MCP

Résumé
MCP standardise l’interaction des grands modèles linguistiques (LLM) avec les systèmes externes, constituant ainsi la base des agents généraux. Toutefois, les benchmarks existants dédiés à MCP restent trop restreints : ils se concentrent principalement sur des tâches à forte charge de lecture ou sur des tâches présentant une profondeur d’interaction limitée, et ne parviennent pas à capturer la complexité et la réalité des flux de travail du monde réel. Pour combler cet écart, nous proposons MCPMark, un benchmark conçu pour évaluer l’utilisation de MCP de manière plus réaliste et plus complète. Il comprend 127 tâches de haute qualité, élaborées de manière collaborative par des experts du domaine et des agents IA. Chaque tâche débute par un état initial soigneusement sélectionné et inclut un script programmé permettant une vérification automatique. Ces tâches exigent des interactions plus riches et plus diversifiées avec l’environnement, impliquant une large gamme d’opérations de création, de lecture, de mise à jour et de suppression (CRUD). Nous menons une évaluation approfondie des meilleurs modèles LLM actuels à l’aide d’un cadre d’agent minimal fonctionnant dans une boucle d’appel d’outils. Les résultats expérimentaux montrent que le modèle performant le plus élevé, gpt-5-medium, atteint seulement 52,56 % de taux de réussite (pass@1) et 33,86 % (pass^4), tandis que d’autres modèles largement considérés comme puissants, tels que claude-sonnet-4 et o3, obtiennent moins de 30 % (pass@1) et moins de 15 % (pass^4). En moyenne, les LLM nécessitent 16,2 itérations d’exécution et 17,4 appels d’outils par tâche, ce qui dépasse significativement les chiffres observés dans les benchmarks MCP antérieurs, mettant ainsi en évidence le caractère exigeant et stressant de MCPMark.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.