12 天前

UserBench:面向以用户为中心的Agent的交互式Gym环境

Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
UserBench:面向以用户为中心的Agent的交互式Gym环境
摘要

基于大型语言模型(LLMs)的智能体在推理与工具使用方面取得了显著进展,使其能够完成复杂任务。然而,当用户目标模糊、动态变化或以间接方式表达时,这些智能体主动与用户协作的能力仍鲜有研究。为填补这一空白,我们提出了UserBench——一个以用户为中心的基准测试框架,用于评估智能体在多轮、偏好驱动交互中的表现。UserBench引入了模拟用户,这些用户初始时目标描述不明确,并逐步披露偏好,要求智能体主动澄清用户意图,并基于工具做出合理决策。我们对主流开源与闭源LLM的评估结果显示,任务完成度与用户对齐度之间存在显著脱节:平均而言,模型所提供的回答仅在20%的情况下完全符合用户的全部意图;即便最先进的模型,通过主动交互也仅能发现不足30%的用户偏好。这些结果凸显了构建不仅具备任务执行能力,更能成为真正协作伙伴的智能体所面临的挑战。UserBench提供了一个交互式环境,用于衡量并推动这一关键能力的发展。