HyperAIHyperAI

Command Palette

Search for a command to run...

3 小时前
Agent
基准
LLM

πππ-Bench:在长周期工作流中评估主动式个人助理 Agent

摘要

个人助理智能体(例如 OpenClaw)的兴起,凸显了大型语言模型在支持用户日常生活与工作方面的巨大潜力。在这些应用场景中,一个核心挑战在于主动式辅助,因为用户往往以定义不明确的请求开始交互,而未阐明重要的需求、约束条件或偏好。然而,现有的基准测试很少评估智能体是否能够在这些隐含意图被明确表述之前识别并加以利用,尤其是在用户需求逐渐显现的持续多轮交互场景中。为弥补这一空白,我们引入了 π\piπ-Bench,这是一个针对主动式辅助的基准测试,包含跨越 5 个特定领域用户画像的 100 个多轮任务。通过融入隐含的用户意图、任务间依赖关系以及跨会话的连续性,π\piπ-Bench 评估智能体在长期交互中预见并满足用户需求的能力,同时在更贴近现实使用场景的长视界轨迹中,联合衡量主动性与任务完成度。实验结果表明:(1)主动式辅助仍然具有挑战性;(2)任务完成度与主动性之间存在显著差异;(3)先前的交互对于后续任务中隐含意图的解析具有价值。

一句话总结

作者推出了 π-BENCH,这是一个包含跨五个角色的一百个多轮任务的基准测试。该基准通过隐藏意图、任务间依赖关系和跨会话连续性来评估主动型个人助理 agent,最终揭示了在长周期工作流中,主动协助与任务完成之间存在明确界限。

核心贡献

  • 本文通过建立评估标准,形式化了长周期个人 agent 的主动协助机制。该标准用于衡量系统如何在跨多会话的交互中预判并解决用户未明确指定的需求。
  • 本研究推出了 π\piπ-BENCH,这是一个包含跨五个垂直领域角色的一百个多轮任务的基准测试。该基准通过具有长距离跨会话依赖关系的 agent 轨迹,共同评估主动性与任务完成度。
  • 实验表明,主动协助对前沿模型而言仍具挑战性。结果揭示了任务完成度与主动性之间的明确界限,并证实先前的交互历史能够提升后续任务中的意图解析效果。

引言

作者致力于应对向长周期个人助理 agent 演进的趋势,这类 agent 需在持久化工作空间和跨会话工作流中运行。在实际应用中,用户极少提供完整的任务规范,因此助理必须主动从交互历史中推断隐藏偏好与约束,以降低认知负荷并输出连贯的结果。现有基准测试难以应对这一现实,因为它们通常假设目标明确、聚焦短周期移动端任务,或将记忆视为简单的检索工具,而非检测未明确需求的有效机制。为克服这些局限,作者引入了 π\piπ-BENCH,这是一个专为评估主动协助而设计的基准测试,包含具有跨会话依赖关系的一百个多轮任务。实验表明,尽管前沿模型能够完成任务,但在预判隐藏意图方面始终表现不足,这凸显了单纯的任务完成与真正降低用户精力消耗之间存在着关键差距。

数据集

  • 数据集构成与来源: 作者推出了 π-BENCH,这是一个专为评估长周期工作流中主动型个人助理 agent 设计的基准测试。数据集包含一百个多轮任务,分布在五个垂直领域的用户角色中:研究员、营销人员、法律实习生、药剂师和金融分析师。任务源自从领域专家和公开任务模式中收集的真实专业知识与日常知识工作流,随后经过脱敏处理以移除敏感信息,同时保留真实的工作流结构。

  • 子集结构与关键细节: 每个用户角色对应一个包含二十个会话的独立剧集(episode),每个会话代表一个多轮任务。在每个剧集中,任务被组织为六个强依赖组,其中两到三个任务共享关键的延续信息,另外五个任务则基本独立,用于测试孤立工作流。该基准测试整合了 187 种独立工具和 21 项技能,任务被划分为 18 种细粒度的动作与推理类型。筛选规则优先采用以产物为中心的工作流,这类工作流天然需要交互并包含真实的未明确指定内容。

  • 数据用途与评估设置: 作者仅将该数据集用于评估,而非训练。agent 与模拟用户 agent 在基于回合的循环中进行交互,用户负责追踪隐藏意图并为其分配最终状态。本文衡量两项独立能力:主动性(评估 agent 是否推断或引导出未明确的需求)与完整度(根据预定义清单验证最终交付物)。由于该基准测试作为静态评估套件使用,因此未应用任何训练集划分或混合比例。

  • 元数据构建与处理流程: 每个任务被封装为包含初始请求、隐藏意图、清单标准以及难度评级等元数据的结构化配置。作者刻意将初始请求设计为自然但仅具备最低充分性,故意留白潜在需求以测试主动行为。在构建过程中,标注人员负责脱敏私有数据、定义跨会话依赖关系,并通过试点执行和参考工作流验证可行性。评估流程保留结构化的工具调用记录、交互历史与文件上下文,以便对意图解析和最终输出质量进行基于规则和量规的评分。

方法

长周期个人 agent 的评估框架围绕模拟真实用户与 agent 动态交互的多会话协议构建。整体系统由在持久化项目环境中运行的待评估 agent、模拟人类交互的用户 agent 以及全面的评估流程组成。交互过程在基于回合的循环中展开:agent 响应用户输入,执行工具调用与产物创建等操作,并更新工作空间。用户 agent 观察这些动作及生成的产物,随后生成下一条用户消息以推动会话继续。

如图所示,交互始于用户的初始请求,该请求可由用户主动发起或由环境触发。待评估 agent 结合截至当前回合的交互历史(记为 Ht=(u1,a1,,ut)H_t = (u_1, a_1, \ldots, u_t)Ht=(u1,a1,,ut))处理该请求,并生成回复 ata_tat。此回复可能涉及内部推理、记忆检索、工具调用、工作空间修改以及澄清问题的生成。随后,用户 agent 观察 agent 的回复及任何更新的产物,更新隐藏意图的追踪状态,并生成下一条用户消息 ut+1u_{t+1}ut+1。该过程持续进行,直至所有隐藏意图均被分配最终状态。

用户 agent 采用两阶段流程来确定隐藏意图的状态,这些意图是初始请求中未明确说明的潜在需求。第一阶段检查 agent 的回复是否已通过其动作、工具调用或产物创建解决了任何未解决的意图。若某个意图在未获得用户明确输入的情况下被解决,则将其标记为“已完成”。该阶段具有优先权,因为它捕捉到了主动性最强的形式。第二阶段评估 agent 是否提出了直接针对一个或多个未解决意图的针对性澄清问题。若发现此类问题,这些意图将被标记为“已推断”,用户 agent 将在下一条消息中提供缺失信息。若不存在针对性问题,用户 agent 将选择一个未解决的意图并披露相应信息,将其标记为“已提供”。该两阶段协议确立了明确的优先级顺序:已完成 > 已推断 > 已提供,该顺序直接映射到主动性指标。

对 agent 性能的评估沿两个维度展开:主动性与完整度。主动性(记为 PROC)衡量 agent 识别并解决隐藏需求的积极程度。其计算方式为已完成与已推断意图数量占隐藏意图总数的比例。完整度(记为 COMP)评估最终产物与决策是否满足任务的可验证要求。该评估采用基于量规与基于规则的评分器组合进行。基于量规的评估利用大语言模型,根据包含交互历史和相关上下文的渲染轨迹对清单标准进行评判,给出严格的“是”或“否”判定。基于规则的评估使用特定任务的脚本验证结构化工具调用与结果,确保对文件存在性、精确字符串匹配及架构有效性等客观条件进行精准校验。最终评估汇总两项评分器的得分以确定整体完整度。主动性与完整度的分离使得能够对 agent 行为进行细致分析,明确区分 agent 在挖掘需求时的主动性与其正确执行最终任务的能力。

实验

本研究在一个具有隐藏意图与跨会话依赖的多轮任务的长周期基准测试上,评估了九款前沿大语言模型,所有实验均在统一的 agent 框架下执行。每项实验验证两项独立的操作能力:主动性(评估 agent 在明确披露前挖掘并解决未声明用户需求的能力)与完整度(衡量最终任务产物是否满足可验证清单)。结果表明,这些指标捕捉到了本质上不同的行为模式。模型经常通过被动响应用户澄清来实现高任务完成率,但在主动意图发现方面得分较低。此外,分析显示先前的交互历史能显著提升主动能力,而性能因专业领域而异,这取决于工作流结构与潜在需求的复杂程度。

作者使用一项基准测试评估 agent 在主动性与完整度上的表现,该测试考察 agent 是否主动解决隐藏意图并最终满足任务要求。结果显示,不同模型展现出不同的优势:部分模型通过早期意图解析实现高主动性,另一些模型则在最终任务完成方面表现出色,尽管其主动行为较弱。评估凸显了这两项能力之间的独立性,agent 可以在主动性不高的情况下实现高完整度,反之亦然。主动性与完整度是可能产生分化的独立指标,部分模型在一项上表现优异,而在另一项上相对落后。模型在主动解决隐藏意图的能力上存在差异,性能差异与任务类型及先前的交互历史密切相关。评估表明,即使 agent 在信息明确后能够完成任务,它们往往仍依赖用户提供的隐藏意图信息。

作者从主动性与完整度两个维度评估 agent 模型,衡量其解决隐藏意图与满足任务要求的有效性。结果表明,模型在主动识别与解决未声明需求 versus 完成可见任务方面的能力存在显著差异,部分模型在一项指标上表现优异,而在另一项上相对落后。评估强调先前的交互历史能够改善主动意图解析,且不同任务类型对特定能力提出不同要求。作者采用结构化方法同时评估需求的触发与最终工作流结果。模型在主动性与完整度上表现出不同水平,部分模型在一项维度上领先,而在另一项上表现不足。先前的交互历史显著增强了模型主动解决隐藏意图的能力。不同任务类型侧重不同能力,部分任务需要较强的主动发现能力,而另一些则聚焦于最终任务的完成。

作者跨多个用户领域评估 agent 在主动性与完整度上的表现,所使用的基准测试衡量 agent 是否主动解决隐藏意图并满足任务要求。结果表明,模型在识别未声明需求与完成任务方面的能力各不相同:部分模型完整度高但主动性低,另一些模型在早期意图解析上表现出色,但在最终执行上有所欠缺。多次运行的性能差异保持一致,评估显示先前的交互历史显著提升了主动意图解析效果。模型在主动性与完整度上呈现不同模式,部分模型在一项上占优,而在另一项上表现不佳。先前的交互历史显著增强了主动意图解析,这印证了上下文复用的重要性。不同用户领域的性能存在差异,部分领域因工作流结构化而相对简单,另一些领域则因复杂的决策要求而更具挑战性。

作者在一个衡量长周期任务中主动性与完整度的基准测试上评估了多款大语言模型。结果表明,模型在主动解决隐藏意图与完成任务要求方面的能力差异显著,部分模型在一项维度上表现优异,而在另一项上相对落后,这表明这些指标捕捉到了独立的能力。跨领域的性能差异也凸显了特定任务类型(如需要科学约束或法律判断的任务)对 agent 行为提出不同要求。模型在主动性与完整度之间表现出权衡关系,部分模型在某项指标上得分高,但在另一项上得分低。不同用户领域的性能差异巨大,药剂师任务最为简单,而法律实习生与金融分析师任务最具挑战性。先前的交互历史显著改善了主动意图解析,表明上下文复用对提供有效协助至关重要。

{"summary": "作者在一项衡量长周期 agent 任务中主动性与完整度的基准测试上评估了多款大语言模型。结果表明,模型在主动解决隐藏意图与完成任务要求方面的能力存在显著差异,部分模型在一项维度上表现优异,而在另一项上相对落后,这表明这些能力是独立的且并非始终一致。", "highlights": ["模型在主动性与完整度上展现出不同的优势,部分模型在某项指标上得分高,但在另一项上得分低。", "主动意图解析比任务完成更具挑战性,大多数模型的主动性得分较低便是明证。", "该基准测试表明,先前的交互历史显著提升了主动意图解析效果,这凸显了上下文连续性在 agent 性能中的重要性。"]}

作者在一项旨在衡量长周期工作流中解决隐藏用户意图的主动性以及最终任务执行完整度的基准测试上,评估了多款大语言模型。实验验证了这两项能力在很大程度上独立运行,因为模型始终在一项能力上展现显著优势,而在另一项上表现滞后。分析表明,任务复杂度和领域约束显著塑造了 agent 的性能,同时保留先前的交互历史能大幅增强主动意图解析效果。最终,研究结果强调,有效的 agent 设计需要对早期需求发现与可靠的工作流完成进行独立优化。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供