6 个月前

自然语言处理

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese

摘要

基于大型语言模型（LLMs）的智能体在推理与工具使用方面取得了显著进展，使其能够完成复杂任务。然而，当用户目标模糊、动态变化或以间接方式表达时，这些智能体主动与用户协作的能力仍鲜有研究。为填补这一空白，我们提出了UserBench——一个以用户为中心的基准测试框架，用于评估智能体在多轮、偏好驱动交互中的表现。UserBench引入了模拟用户，这些用户初始时目标描述不明确，并逐步披露偏好，要求智能体主动澄清用户意图，并基于工具做出合理决策。我们对主流开源与闭源LLM的评估结果显示，任务完成度与用户对齐度之间存在显著脱节：平均而言，模型所提供的回答仅在20%的情况下完全符合用户的全部意图；即便最先进的模型，通过主动交互也仅能发现不足30%的用户偏好。这些结果凸显了构建不仅具备任务执行能力，更能成为真正协作伙伴的智能体所面临的挑战。UserBench提供了一个交互式环境，用于衡量并推动这一关键能力的发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese

摘要

基于大型语言模型（LLMs）的智能体在推理与工具使用方面取得了显著进展，使其能够完成复杂任务。然而，当用户目标模糊、动态变化或以间接方式表达时，这些智能体主动与用户协作的能力仍鲜有研究。为填补这一空白，我们提出了UserBench——一个以用户为中心的基准测试框架，用于评估智能体在多轮、偏好驱动交互中的表现。UserBench引入了模拟用户，这些用户初始时目标描述不明确，并逐步披露偏好，要求智能体主动澄清用户意图，并基于工具做出合理决策。我们对主流开源与闭源LLM的评估结果显示，任务完成度与用户对齐度之间存在显著脱节：平均而言，模型所提供的回答仅在20%的情况下完全符合用户的全部意图；即便最先进的模型，通过主动交互也仅能发现不足30%的用户偏好。这些结果凸显了构建不仅具备任务执行能力，更能成为真正协作伙伴的智能体所面临的挑战。UserBench提供了一个交互式环境，用于衡量并推动这一关键能力的发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供