3 个月前

Tengxiao Liu Zifeng Wang Jin Miao I-Hung Hsu Jun Yan Jiefeng Chen Rujun Han Fangyuan Xu Yanfei Chen Ke Jiang

摘要

增加测试时（test-time）计算量能够提升大型语言模型（LLMs）在各类任务中的性能，这一结论同样适用于工具增强型智能体（tool-augmented agents）。对于此类智能体而言，扩展（scaling）不仅包含以词元（token）形式进行的“思考”，还包含通过工具调用进行的“行动”。其中，工具调用的数量直接界定了智能体与外部环境交互的范围。然而，我们发现，仅仅赋予智能体更多的工具调用预算并不能提升性能，原因在于智能体缺乏“预算感知”（budget awareness），从而迅速触及性能瓶颈。针对这一问题，我们以网络搜索智能体为重点，研究了如何在明确的工具调用预算约束下有效地扩展此类智能体。首先，我们引入了“预算追踪器”（Budget Tracker），这是一种轻量级插件，能够赋予智能体持续的预算感知能力，从而实现简单而有效的扩展。随后，我们开发了BATS（Budget Aware Test-time Scaling，预算感知测试时扩展），这是一个利用上述感知能力动态调整规划与验证策略的高级框架。该框架能够根据剩余资源情况，决策是对一条有潜力的线索进行“深挖”（dig deeper），还是“转向”（pivot）探索新的路径。为了在受控条件下分析成本-性能的扩展规律，我们形式化定义了一个统一的成本指标，将词元消耗与工具消耗共同纳入考量。我们进行了首个针对预算受限智能体的系统性研究，结果表明，具备预算感知的方法能产生更优的扩展曲线，并推进了成本-性能的帕累托前沿（Pareto frontier）。我们的工作提供了实证见解，有助于建立对工具增强型智能体扩展机制更透明、更具原则性的理解。

总结

来自加州大学圣塔芭芭拉分校、谷歌和纽约大学的研究人员推出了 BATS，这是一个用于工具增强型网络搜索智能体的框架，它利用预算追踪器（Budget Tracker）根据剩余资源动态调整规划和验证策略，有效地将成本-性能帕累托前沿推向了超越简单工具调用扩展极限的高度。

简介

扩展测试时计算已被证明能有效提高 LLM 的推理能力，这促使人们转向将这些策略应用于与搜索引擎等外部环境交互的工具增强型智能体。在这种背景下，性能不仅依赖于内部“思考”（Token 生成），还依赖于“行动”（工具调用），其中交互的数量决定了信息探索的深度和广度。

然而，标准智能体缺乏内在的预算意识；它们通常进行浅层搜索或无法有效利用额外资源，无论分配多少预算都会遇到性能天花板。与 Token 数量为主要约束的纯文本推理不同，工具增强型智能体面临着管理外部工具调用成本的独特挑战，且缺乏明确的信号来策略性地花费这些成本。

为了解决这个问题，作者引入了一个用于预算受限智能体扩展的系统框架，专注于在固定的工具调用和 Token 消耗限额内最大化性能。

关键创新包括：

预算追踪器 (Budget Tracker)： 一个轻量级、即插即用的模块，与标准编排框架兼容，为智能体提供资源可用性的持续信号，以防止低效支出。
BATS 框架： 一个动态系统，可实时调整规划和验证策略，允许智能体根据剩余预算决定是深入挖掘线索（"dig deeper"）还是转向（"pivot"）替代路径。
统一成本度量 (Unified Cost Metric)： 一种形式化的方法，共同核算内部 Token 消耗和外部工具交互的经济成本，从而能够透明地评估真实的成本-性能权衡。

方法

作者提出了 BATS，即一种用于在明确预算约束下运行的工具增强型智能体的预算感知测试时扩展框架。BATS 的核心设计原则是预算意识，它贯穿于智能体的推理和动作选择过程中。如框架图所示，智能体首先接收一个问题和每个工具的预算。该过程从内部推理开始，并辅以一个结构化规划模块，该模块生成一个树状结构的计划。该计划充当动态清单，记录步骤状态、资源使用和分配，并指导未来的行动。然后，智能体在推理、工具调用和处理工具响应的循环中迭代，根据新信息和剩余预算不断更新其内部状态。当提出候选答案时，自验证模块会评估推理轨迹和当前预算状态。该模块执行逐个约束的反向检查，以评估答案是否满足问题的要求。基于此分析和剩余预算，验证器做出战略决策：如果满足所有约束则宣布成功；如果计划可挽救且预算允许则继续探索；如果当前路径是死胡同或预算不足则转向新方向。如果决定是继续或转向，该模块会生成轨迹的简明摘要，替换上下文中的原始历史记录，以减少长度并保持依据。当任何预算资源耗尽时，迭代过程终止。最后，由 LLM 作为裁判从所有经过验证的尝试中选出最佳答案。

BATS 框架通过一个名为预算追踪器（Budget Tracker）的轻量级、即插即用模块纳入了预算意识。该模块旨在作为一个简单的、提示级别的附加组件，在智能体的推理循环中展示实时预算状态。在流程开始时，追踪器提供简短的策略指南，描述预算制度和相应的工具使用建议。在随后的每次迭代中，追踪器会附加一个预算状态块，显示每个可用工具的剩余预算和已用预算。这种持续的意识使智能体能够根据更新的资源状态调整其后续推理步骤，从而塑造其规划、工具使用策略和验证行为。作者证明，这种明确的预算信号允许模型内化资源约束并调整其策略，而无需额外的训练。

BATS 中的预算感知规划是通过结合约束分解和结构化动态规划来实现的。智能体被指示首先执行约束分解，将问题中的线索分为两类：探索（扩展候选空间）和验证（验证特定属性）。这一初始步骤对于选择合适的起点和节省预算至关重要。然后，智能体在整个执行过程中生成并维护一个明确的、树状结构的计划。该计划充当动态清单，记录步骤状态、资源使用和分配，同时指导未来的行动。已完成、失败或部分的步骤永远不会被覆盖，从而确保完整的执行跟踪并防止重复的工具调用。规划模块根据当前剩余预算调整探索广度和验证深度，使 BATS 能够维持受控且可解释的搜索过程，同时在探索和验证子任务之间有效地分配可用的工具调用。

BATS 中的自验证模块重新评估推理轨迹和相应的资源使用情况，以做出战略决策。该过程从逐个约束的反向检查开始，评估每个约束以确定其是否已满足、被反驳或仍然无法验证。基于此分析和预算状态，该模块做出三个决定之一：SUCCESS（成功），如果所有约束都已满足；CONTINUE（继续），如果几个约束仍然无法验证但轨迹看起来有希望且预算充足；或 PIVOT（转向），如果发现矛盾或剩余预算无法支持进一步调查。当决定是继续或转向时，该模块会生成一个简明摘要，替换上下文中的原始轨迹。这包括关键推理步骤、中间发现、失败原因和优化建议。通过将推理轨迹压缩为紧凑且信息丰富的摘要，验证器减少了上下文长度，同时确保后续尝试仍然基于先前获取的信息。这使得 BATS 能够尽早终止无用的轨迹，有效地继续有希望的轨迹，并在严格的预算约束下保持向正确答案的可靠进展。

实验

在 BrowseComp、BrowseComp-ZH 和 HLE-Search 数据集上评估了预算追踪器和 BATS 框架，并将它们与 ReAct 和通用基础模型进行了比较。
使用 Gemini-2.5-Pro，BATS 始终优于基线，在无需额外微调的情况下，在 BrowseComp 上达到了 24.6% 的准确率，在 BrowseComp-ZH 上达到了 46.0% 的准确率。
预算追踪器表现出卓越的效率，在达到与 ReAct 相同准确率的同时，减少了 40.4% 的搜索调用，并将总成本降低了 31.3%。
在测试时扩展实验中，该方法避免了在 ReAct 中观察到的性能停滞，成功利用更大的预算在串行和并行设置中改善了结果。
消融研究验证了规划和验证模块的必要性，结果显示，移除验证模块导致 BrowseComp 上的准确率从 18.7% 显著下降至 15.4%。
成本效益分析显示，BATS 以大约 $0.23 的成本达到了超过 37% 的准确率，而并行多数投票基线需要超过 $0.50 才能达到类似的结果。

作者使用预算追踪器来增强基于 ReAct 的智能体在受限工具预算下的性能。结果表明，添加预算追踪器在所有模型和数据集上都一致地提高了准确率，证明了明确的预算意识能够实现更具战略性和更有效的工具使用。

结果显示，ReAct + 预算追踪器实现了比预算为 100 的 ReAct (12.6%) 更高的准确率 (12.8%)，同时使用了更少的搜索和浏览工具调用以及更低的统一成本。这表明明确的预算意识能够实现更高效和有效的资源利用，使智能体能够以显著降低的工具使用量和成本获得更好的性能。

作者使用预算追踪器来增强受限工具预算下的智能体性能，表明 BATS 在所有数据集和模型上始终优于 ReAct 基线。结果显示，BATS 以更少的工具调用和更低的统一成本实现了更高的准确率，证明了更高效的资源利用率和改进的可扩展性。

作者使用预算感知框架 BATS 来评估其规划和验证模块对三个数据集性能的影响。结果显示，移除任一模块都会降低准确率，其中验证模块的影响更为显著，特别是在 BrowseComp 上，这表明这两个组件对于有效的智能体行为都是必不可少的。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

Tengxiao Liu Zifeng Wang Jin Miao I-Hung Hsu Jun Yan Jiefeng Chen Rujun Han Fangyuan Xu Yanfei Chen Ke Jiang

摘要

总结

简介

为了解决这个问题，作者引入了一个用于预算受限智能体扩展的系统框架，专注于在固定的工具调用和 Token 消耗限额内最大化性能。

关键创新包括：

预算追踪器 (Budget Tracker)： 一个轻量级、即插即用的模块，与标准编排框架兼容，为智能体提供资源可用性的持续信号，以防止低效支出。
BATS 框架： 一个动态系统，可实时调整规划和验证策略，允许智能体根据剩余预算决定是深入挖掘线索（"dig deeper"）还是转向（"pivot"）替代路径。
统一成本度量 (Unified Cost Metric)： 一种形式化的方法，共同核算内部 Token 消耗和外部工具交互的经济成本，从而能够透明地评估真实的成本-性能权衡。

方法

实验

在 BrowseComp、BrowseComp-ZH 和 HLE-Search 数据集上评估了预算追踪器和 BATS 框架，并将它们与 ReAct 和通用基础模型进行了比较。
使用 Gemini-2.5-Pro，BATS 始终优于基线，在无需额外微调的情况下，在 BrowseComp 上达到了 24.6% 的准确率，在 BrowseComp-ZH 上达到了 46.0% 的准确率。
预算追踪器表现出卓越的效率，在达到与 ReAct 相同准确率的同时，减少了 40.4% 的搜索调用，并将总成本降低了 31.3%。
在测试时扩展实验中，该方法避免了在 ReAct 中观察到的性能停滞，成功利用更大的预算在串行和并行设置中改善了结果。
消融研究验证了规划和验证模块的必要性，结果显示，移除验证模块导致 BrowseComp 上的准确率从 18.7% 显著下降至 15.4%。
成本效益分析显示，BATS 以大约 $0.23 的成本达到了超过 37% 的准确率，而并行多数投票基线需要超过 $0.50 才能达到类似的结果。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

预算感知工具使用实现Agent的有效扩展

Tengxiao Liu Zifeng Wang Jin Miao I-Hung Hsu Jun Yan Jiefeng Chen Rujun Han Fangyuan Xu Yanfei Chen Ke Jiang5 more

摘要

总结

简介

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

预算感知工具使用实现Agent的有效扩展

Tengxiao Liu Zifeng Wang Jin Miao I-Hung Hsu Jun Yan Jiefeng Chen Rujun Han Fangyuan Xu Yanfei Chen Ke Jiang5 more

摘要

总结

简介

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

预算感知工具使用实现Agent的有效扩展

Tengxiao Liu Zifeng Wang Jin Miao I-Hung Hsu Jun Yan Jiefeng Chen Rujun Han Fangyuan Xu Yanfei Chen Ke Jiang5 more

摘要

总结

简介

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Tengxiao Liu Zifeng Wang Jin Miao I-Hung Hsu Jun Yan Jiefeng Chen Rujun Han Fangyuan Xu Yanfei Chen Ke Jiang

Tengxiao Liu Zifeng Wang Jin Miao I-Hung Hsu Jun Yan Jiefeng Chen Rujun Han Fangyuan Xu Yanfei Chen Ke Jiang

Tengxiao Liu Zifeng Wang Jin Miao I-Hung Hsu Jun Yan Jiefeng Chen Rujun Han Fangyuan Xu Yanfei Chen Ke Jiang