Command Palette

Search for a command to run...

17 天前

CostBench:评估LLM工具使用Agent在动态环境中多轮成本最优规划与适应性

Jiayu Liu Cheng Qian Zhaochen Su Qing Zong Shijue Huang Bingxiang He Yi R. Fung

CostBench:评估LLM工具使用Agent在动态环境中多轮成本最优规划与适应性

摘要

当前对大型语言模型(LLM)智能体的评估主要侧重于任务完成率,往往忽视了资源效率与适应性。这种忽略忽略了一个关键能力:智能体在环境变化时,能够制定并调整成本最优计划的能力。为弥补这一差距,我们提出 CostBench——一个可扩展、以成本为中心的基准测试框架,用于评估智能体的经济推理能力与动态重规划能力。CostBench 位于旅行规划领域,其任务可通过多种原子工具与复合工具的组合序列求解,且每种工具的开销具有多样性和可定制性。该基准还支持四类动态阻断事件(如工具故障、成本突变),以模拟现实世界中的不确定性,从而要求智能体在运行时实时调整策略。在 CostBench 上对主流开源与专有模型的评估显示,当前智能体在成本感知规划方面存在显著不足:在静态环境下,智能体常无法识别成本最优解,即使 GPT-5 在最复杂任务上的精确匹配率也未超过 75%;而在动态条件下,性能进一步下降约 40%。通过诊断这些缺陷,CostBench 为未来开发兼具经济理性与鲁棒性的智能体奠定了基础。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CostBench:评估LLM工具使用Agent在动态环境中多轮成本最优规划与适应性 | 论文 | HyperAI超神经