Command Palette

Search for a command to run...

UserBench 基准

日期

10 天前

机构

论文链接

2507.22034

UserBench 是由 Salesforce AI Research 团队和伊利诺伊大学厄巴纳-香槟分校的研究团队于 2025 年 7 月联合提出的,相关研究成果发表于论文「UserBench: An Interactive Gym Environment for User-Centric Agents」。

UserBench 是一个以用户为中心的基准,旨在评估智能体在多轮、偏好驱动的交互中的表现。在 UserBench 中,模拟用户会提供初始模糊的任务指令,随着时间的推移逐渐揭示偏好,并且通常是以隐含的方式。智能体必须主动澄清目标,解读微妙的线索,并通过适应性推理工具使用来取得成功。基于标准的 Gymnasium 框架,UserBench 提供了一种模块化、可扩展的设置,具有标准化的交互接口和稳定的工具使用后端,能够进行严格且可重复的评估。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供