il y a 3 mois

Résumé

Les évaluations actuelles des agents basés sur les grands modèles linguistiques (LLM) mettent principalement l'accent sur la finalisation des tâches, en négligeant souvent l'efficacité des ressources et la capacité d'adaptation. Ce manque d'attention ignore une compétence essentielle : la capacité des agents à concevoir et à ajuster des plans optimaux en termes de coût face à des environnements en mutation. Pour combler cette lacune, nous introduisons CostBench, un benchmark évolutif et centré sur le coût, conçu pour évaluer les capacités de raisonnement économique et de replanification des agents. Situé dans le domaine de la planification de voyages, CostBench comprend des tâches pouvant être résolues par diverses séquences d'outils atomiques et composites, aux coûts variés et personnalisables. Il prend en charge quatre types d'événements dynamiques de blocage, tels que les pannes d'outils ou les modifications de coûts, afin de simuler l'imprévisibilité du monde réel et d'obliger les agents à s'adapter en temps réel. L'évaluation de modèles open-source et propriétaires de pointe sur CostBench révèle un écart important en matière de planification consciente du coût : les agents échouent fréquemment à identifier des solutions optimales en termes de coût dans des environnements statiques, GPT-5 atteignant même moins de 75 % de taux de correspondance exacte sur les tâches les plus difficiles, tandis que les performances chutent d'environ 40 % dans des conditions dynamiques. En diagnostiquant ces faiblesses, CostBench ouvre la voie au développement d'agents futurs à la fois économiquement rationnels et robustes.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

CostBench : Évaluation de la planification et de l'adaptation multi-tours à coût optimal dans des environnements dynamiques pour les agents utilisant des outils basés sur les grands modèles linguistiques | Articles | HyperAI

Command Palette

CostBench : Évaluation de la planification et de l'adaptation multi-tours à coût optimal dans des environnements dynamiques pour les agents utilisant des outils basés sur les grands modèles linguistiques

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CostBench : Évaluation de la planification et de l'adaptation multi-tours à coût optimal dans des environnements dynamiques pour les agents utilisant des outils basés sur les grands modèles linguistiques

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CostBench : Évaluation de la planification et de l'adaptation multi-tours à coût optimal dans des environnements dynamiques pour les agents utilisant des outils basés sur les grands modèles linguistiques

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters