Command Palette
Search for a command to run...
CostBench : Évaluation de la planification et de l'adaptation multi-tours à coût optimal dans des environnements dynamiques pour les agents utilisant des outils basés sur les grands modèles linguistiques
Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

Résumé
Les évaluations actuelles des agents basés sur les grands modèles linguistiques (LLM) mettent principalement l'accent sur la finalisation des tâches, en négligeant souvent l'efficacité des ressources et la capacité d'adaptation. Ce manque d'attention ignore une compétence essentielle : la capacité des agents à concevoir et à ajuster des plans optimaux en termes de coût face à des environnements en mutation. Pour combler cette lacune, nous introduisons CostBench, un benchmark évolutif et centré sur le coût, conçu pour évaluer les capacités de raisonnement économique et de replanification des agents. Situé dans le domaine de la planification de voyages, CostBench comprend des tâches pouvant être résolues par diverses séquences d'outils atomiques et composites, aux coûts variés et personnalisables. Il prend en charge quatre types d'événements dynamiques de blocage, tels que les pannes d'outils ou les modifications de coûts, afin de simuler l'imprévisibilité du monde réel et d'obliger les agents à s'adapter en temps réel. L'évaluation de modèles open-source et propriétaires de pointe sur CostBench révèle un écart important en matière de planification consciente du coût : les agents échouent fréquemment à identifier des solutions optimales en termes de coût dans des environnements statiques, GPT-5 atteignant même moins de 75 % de taux de correspondance exacte sur les tâches les plus difficiles, tandis que les performances chutent d'environ 40 % dans des conditions dynamiques. En diagnostiquant ces faiblesses, CostBench ouvre la voie au développement d'agents futurs à la fois économiquement rationnels et robustes.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.