HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 17 jours

CostBench : Évaluation de la planification et de l'adaptation multi-tours à coût optimal dans des environnements dynamiques pour les agents utilisant des outils basés sur les grands modèles linguistiques

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

CostBench : Évaluation de la planification et de l'adaptation multi-tours à coût optimal dans des environnements dynamiques pour les agents utilisant des outils basés sur les grands modèles linguistiques

Résumé

Les évaluations actuelles des agents basés sur les grands modèles linguistiques (LLM) mettent principalement l'accent sur la finalisation des tâches, en négligeant souvent l'efficacité des ressources et la capacité d'adaptation. Ce manque d'attention ignore une compétence essentielle : la capacité des agents à concevoir et à ajuster des plans optimaux en termes de coût face à des environnements en mutation. Pour combler cette lacune, nous introduisons CostBench, un benchmark évolutif et centré sur le coût, conçu pour évaluer les capacités de raisonnement économique et de replanification des agents. Situé dans le domaine de la planification de voyages, CostBench comprend des tâches pouvant être résolues par diverses séquences d'outils atomiques et composites, aux coûts variés et personnalisables. Il prend en charge quatre types d'événements dynamiques de blocage, tels que les pannes d'outils ou les modifications de coûts, afin de simuler l'imprévisibilité du monde réel et d'obliger les agents à s'adapter en temps réel. L'évaluation de modèles open-source et propriétaires de pointe sur CostBench révèle un écart important en matière de planification consciente du coût : les agents échouent fréquemment à identifier des solutions optimales en termes de coût dans des environnements statiques, GPT-5 atteignant même moins de 75 % de taux de correspondance exacte sur les tâches les plus difficiles, tandis que les performances chutent d'environ 40 % dans des conditions dynamiques. En diagnostiquant ces faiblesses, CostBench ouvre la voie au développement d'agents futurs à la fois économiquement rationnels et robustes.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
CostBench : Évaluation de la planification et de l'adaptation multi-tours à coût optimal dans des environnements dynamiques pour les agents utilisant des outils basés sur les grands modèles linguistiques | Articles de recherche | HyperAI