il y a 5 mois

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao

Résumé

Nous introduisons MCP-Bench, un benchmark destiné à évaluer les grands modèles linguistiques (LLM) sur des tâches réalistes à plusieurs étapes, qui exigent l’utilisation d’outils, une coordination entre outils, un contrôle précis des paramètres, ainsi que la planification et le raisonnement pour résoudre des problèmes. Basé sur le Model Context Protocol (MCP), MCP-Bench relie les LLM à 28 serveurs MCP en direct représentatifs, couvrant au total 250 outils répartis dans des domaines tels que la finance, les voyages, le calcul scientifique et la recherche académique. Contrairement aux benchmarks basés sur des API précédents, chaque serveur MCP propose un ensemble d’outils complémentaires conçus pour fonctionner ensemble, permettant ainsi la construction de tâches réalistes à plusieurs étapes, caractérisées par des interactions riches entre entrées et sorties. Les tâches de MCP-Bench évaluent la capacité des agents à extraire les outils pertinents à partir d'instructions floues, sans nom d’outil explicite, à planifier des trajectoires d’exécution multi-étapes pour des objectifs complexes, à ancrer leurs réponses dans les sorties intermédiaires des outils, et à orchestrer des flux de travail transversaux entre domaines — des capacités que les benchmarks existants, fondés sur des spécifications d’outils explicites, des workflows à quelques étapes peu profonds et des opérations isolées par domaine, ne mesurent pas adéquatement. Nous proposons un cadre d’évaluation multidimensionnel couvrant la compréhension et l’utilisation au niveau des schémas d’outils, la planification au niveau des trajectoires, ainsi que la complétion des tâches. Des expérimentations menées sur 20 LLM avancés mettent en évidence des défis persistants dans MCP-Bench. Code et données : https://github.com/Accenture/mcp-bench.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

MCP-Bench : Outil d'évaluation des agents LLM utilisant des outils dans des tâches réelles complexes via des serveurs MCP | Articles | HyperAI

Command Palette

MCP-Bench : Outil d'évaluation des agents LLM utilisant des outils dans des tâches réelles complexes via des serveurs MCP

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MCP-Bench : Outil d'évaluation des agents LLM utilisant des outils dans des tâches réelles complexes via des serveurs MCP

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MCP-Bench : Outil d'évaluation des agents LLM utilisant des outils dans des tâches réelles complexes via des serveurs MCP

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao