Command Palette
Search for a command to run...
UserBench 基准
UserBench 是由 Salesforce AI Research 团队和伊利诺伊大学厄巴纳-香槟分校的研究团队于 2025 年 7 月联合提出的,相关研究成果发表于论文「UserBench: An Interactive Gym Environment for User-Centric Agents」。
UserBench 是一个以用户为中心的基准,旨在评估智能体在多轮、偏好驱动的交互中的表现。在 UserBench 中,模拟用户会提供初始模糊的任务指令,随着时间的推移逐渐揭示偏好,并且通常是以隐含的方式。智能体必须主动澄清目标,解读微妙的线索,并通过适应性推理工具使用来取得成功。基于标准的 Gymnasium 框架,UserBench 提供了一种模块化、可扩展的设置,具有标准化的交互接口和稳定的工具使用后端,能够进行严格且可重复的评估。