il y a 2 jours

LiveMCP-101 : Tests de charge et diagnostic des agents pilotés par MCP sur des requêtes complexes

Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song

Voir les détails de l'article

LiveMCP-101 : Tests de charge et diagnostic des agents pilotés par MCP sur des requêtes complexes

Résumé

L’appel d’outils s’est imposé comme une capacité essentielle pour les agents intelligents afin d’interagir avec le monde réel et de résoudre des tâches complexes. Bien que le Model Context Protocol (MCP) fournisse un cadre standardisé puissant pour l’intégration d’outils, un écart important subsiste en matière d’évaluation de la capacité des agents IA à résoudre efficacement des tâches multi-étapes en utilisant divers outils MCP dans des scénarios réalistes et dynamiques. Dans ce travail, nous présentons LiveMCP-101, un benchmark composé de 101 requêtes du monde réel soigneusement sélectionnées, affinées par des itérations successives de réécriture par modèles linguistiques (LLM) et une revue manuelle, nécessitant une coordination de plusieurs outils MCP, notamment la recherche web, les opérations sur fichiers, le raisonnement mathématique et l’analyse de données. Par ailleurs, nous introduisons une nouvelle approche d’évaluation fondée sur des plans d’exécution véritables (ground-truth), plutôt que sur les sorties brutes des API, permettant ainsi de mieux refléter l’évolution des environnements réels. Les expériences montrent que même les modèles LLM les plus avancés atteignent un taux de réussite inférieur à 60 %, mettant en lumière des défis majeurs en matière d’orchestration d’outils. Une analyse détaillée des ablations et une étude des erreurs révèlent des modes de défaillance distincts ainsi que des inefficacités dans l’utilisation des tokens, orientant ainsi vers des pistes concrètes pour améliorer les modèles actuels. LiveMCP-101 établit une norme rigoureuse pour l’évaluation des capacités réelles des agents, contribuant ainsi à l’émergence de systèmes d’IA autonomes capables d’exécuter de manière fiable des tâches complexes grâce à l’utilisation d’outils.