2 天前

Soyeong Jeong Jinheon Baek Minki Kang Sung Ju Hwang

摘要

Agents 被广泛部署为文档、工具和代码的助手。然而，它们通常仅针对显式的用户请求采取行动，这仅能暴露用户已察觉的问题，而许多其他重要问题则共存于更广泛的用户上下文中，隐匿于显而易见之处，且其总数事先未知。我们将此定义为从上下文中发现多个隐藏问题的任务，在该任务中，共存的问题应被揭示，基于支持性证据，并与具体行动相匹配。为此，我们提出了 TIDE，一种带有两种互补机制的模板引导迭代框架。具体而言，基于单次预测往往锚定于最显著案例并产生泛化性结论的观察，我们提出了迭代发现机制，该机制每轮仅揭示少量候选项，并以已发现的结果为条件进行推理，从而使后续轮次能够扩展覆盖范围；同时提出了思维模板，这是一种从已解决案例中提炼出的可复用模式，它明确了应关注哪些上下文信号以及如何建立它们之间的联系，从而将每次预测锚定在可识别的问题类别中。我们在个人工作区和软件仓库两个真实场景中，基于四种模型骨干对 TIDE 进行了验证。结果表明，在任务覆盖、问题识别与解决方面，该方法相较于单次提示及并行多 Agent 基线均取得了显著提升。

一句话总结

TIDE 通过将基于先前发现的条件迭代候选生成与从已解决问题中提取的可复用思维模板相结合，主动揭示用户上下文中的多个隐藏问题，有效缓解单轮锚定偏差，同时呈现基于证据的问题及具体操作方案。

核心贡献

本文提出 TIDE，一种由模板引导的迭代框架，无需依赖明确的用户请求即可从上下文中发现多个隐藏问题。每次发现轮次均基于先前识别的问题进行条件约束，从而在并存的挑战中迭代扩展覆盖范围。
该框架将思维模板重新用作发现模式，明确需关注的上下文信号及其连接方式，以推断未明确表述的问题。该设计使每次预测锚定于可识别的问题类别，而非针对预定义任务优化解决方案。
实证评估在两种真实场景和四个基础模型上均展现出一致的性能提升。该框架保持固定的推理模板，可跨模型迁移，并在相同计算预算下相较于多 agent 基线方法提供更优的覆盖范围权衡。

引言

大型语言模型 agent 已广泛部署为数字助手，但其本质仍为被动响应，且高度依赖明确的用户指令。该局限性至关重要，因为实际工作流中包含多个未明确表述的瓶颈与隐藏问题，这些问题共存于文档、邮件与代码库中，使得单轮交互模型无法提供全面协助。先前的主动式 agent 研究主要集中于预测单一局部需求或判断干预时机，但这些方法仍锚定于现有用户查询，未能联合发现、证据锚定并解决广泛上下文中的多个共存问题。为克服这些挑战，本文提出 TIDE，一种将主动协助重构为由可复用思维模板引导的迭代发现过程的框架。该方法利用迭代轮次，基于累积发现结果生成少量候选批次，同时提炼的推理模式将每次预测锚定于可识别的问题模式。该双重机制使系统能够系统性地识别并解决多个隐藏问题，在个人工作区与软件仓库环境中持续优于单次生成与并行多 agent 基线方法。

数据集

数据集构成与来源
- 本文构建了两个以多问题发现结构为核心的评估数据集，通过扩展合成数据与现实世界数据源，填补了基准测试的空白。
- 其中一组模拟个人数字工作区，另一组捕获实时开源软件仓库。
子集详情
- 个人工作区： 基于 Pasternak 等人（2025）的流水线构建，该子集包含分布在 30 个工作区中的 150 个问题。每个实例包含用户档案及 88 至 113 个工件（如文档、邮件和日历条目）。解决问题需要跨多个文件综合证据，其余项目作为合理的干扰项。解决方案遵循预定义的操作模式，并附带具体的执行参数。
- 软件仓库： 源自 SWE-BENCH 和 TESTEXPLORA 中的 Python 项目，该子集涵盖来自 11 个仓库的 20 个多缺陷实例，共 146 个问题。每个实例捕获共享提交时的仓库快照，包含 2 至 41 个未解决问题及 6 至 646 个候选函数。本文作者将问题分组至一个公共锚定提交，其中所有目标缺陷均未修复，仅保留包含至少两个影响多个函数的共存缺陷的组。标准解决方案为原始拉取请求补丁。
数据使用与处理
- 本文严格将这两个子集保留用于评估与推理，而非模型训练，并构建专用测试划分以衡量从上下文中发现多问题的能力。
- 在推理阶段，模型处理精心筛选的上下文窗口，以隔离并发问题、生成解决方案或提取推理模式。
- 该流水线利用少样本模板生成技术，处理已解决的示例以构建可复用的模式池，从而指导 agent 在新实例上的决策过程。
元数据与结构处理
- 上下文窗口在信号与噪声之间保持刻意平衡，干扰工件或函数经过精心筛选，以模拟项目相关性，但不包含实际问题。
- 针对代码子集，本文作者提取基于 diff 的元数据，将补丁前代码视为缺陷形态，补丁后代码视为修复形态，diff 本身视为修复意图。
- 通过提示词生成结构化的 JSON 模板池，提取与仓库无关的瓶颈模式及逐步证据流。推理阶段仅向 agent 暴露模式描述与证据流，完整模板结构保持内部状态。

方法

本文利用由模板引导的迭代框架 TIDE，解决在给定上下文中揭示多个隐藏问题的挑战。该场景下问题总数未知，且许多问题被更显著的问题所掩盖。相较于单次生成方法，该框架旨在同时提升覆盖范围与预测保真度。它结合了两种互补机制：思维模板与迭代发现。

思维模板是从已解决案例中提取的可复用模式，作为先验知识指导 agent 识别特定问题类别。每个模板以元组形式构建，包含问题类别名称、描述其结构形式的模式，以及概述需关注的上下文信号序列及其连接方式以推断该类实例的证据流。这些模板仅从训练实例集构建一次，并在推理阶段保持固定。通过向 agent 提供此发现模式库，预测结果锚定于可识别的问题类别，而非从零开始推断，从而提升预测保真度。

如图所示，该框架以迭代方式运行。流程始于无已发现任务的初始状态。在每一轮 $t$ 中，agent 生成最多 $k$ 个新候选预测的小批次，每个预测以三元组形式呈现，包含自然语言问题描述 $b$ 、支持性文档子集 $\hat{\mathcal{D}}$ 及具体操作 $a$ 。该生成过程以完整文档集合 $\mathcal{D}$ 、固定模板集 $\mathcal{T}$ 以及上一轮的累积预测状态 $\hat{\mathcal{P}}^{(t-1)}$ 为条件。累积状态通过合并新预测进行更新，流程重复执行预设轮次 $T$ ，或直到某轮未产生新预测为止。这种迭代条件约束确保后续轮次突破先前已发现的问题范围，从而拓宽覆盖范围。每轮生成可执行计划，同时识别、提供证据支持并提出每个已浮现问题的解决方案，将识别、检索与操作整合为单一步骤。

实验

评估在个人工作区与软件仓库上下文中，将 TIDE 与单次生成及并行多 agent 基线方法进行比较，以衡量多问题发现能力。消融研究验证了基于累积发现的条件约束可防止冗余预测，并系统性地揭示隐藏问题；模板对比表明，结构化推理模式显著提升预测准确性，并能跨不同 LLM 基础模型泛化。定性案例研究进一步证实，该组合方法成功识别出基线方法遗漏或过度简化的复杂关联缺陷。最终，研究结果确立迭代发现与可复用模板协同工作，将主动协助转化为稳健的多步调查流程。

本文评估结合迭代发现与思维模板的多问题检测框架，在不同语言模型下与单 agent 及多 agent 基线方法进行对比。结果表明，迭代方法在检索、识别与解决问题方面持续优于并行方法，模板增强了预测准确性并推动整体性能提升。该框架在检索、识别与解决任务上实现更高的覆盖范围与 F1 分数，尤其在利用迭代发现与可复用推理模式时表现突出。结合思维模板的迭代发现方法在多问题检测中持续优于单次生成与并行 agent 方法。相较于基线方法，该框架在检索、识别与解决任务上获得更高的覆盖范围与 F1 分数。思维模板提升预测准确性，与迭代发现结合时产生互补增益。

本文在多个 LLM 与两种评估设置下，将迭代发现框架 TIDE 与单 agent 及多 agent 基线方法进行比较。结果表明，TIDE 在检索、识别与解决多个隐藏问题方面持续优于基线方法，且随着黄金标准问题数量的增加，性能差距进一步扩大。该框架的有效性归功于迭代发现与思维模板，使其能够在各轮次中浮现新问题并提升预测准确性。相较于单 agent 与多 agent 基线，TIDE 在检索、识别与解决任务上持续取得最高性能。随着 LLM 调用预算的增加，TIDE 展现出更好的扩展性，而多 agent 方法则趋于停滞且无法匹配其性能。迭代发现与思维模板的结合共同驱动覆盖范围与精确度，模板提升预测准确性，迭代则支持发现额外问题。

本文在多问题发现任务上评估框架 TIDE 与基线方法的性能，对比检索、识别与解决各项指标。结果表明，TIDE 持续优于单次生成与多 agent 基线方法，迭代发现与思维模板在覆盖范围与精确度上带来互补性提升。TIDE 在检索、识别与解决任务上的覆盖范围与 F1 分数均高于基线方法。迭代发现使 TIDE 能够持续挖掘新问题，而基线方法则日益依赖重复发现相同项目。思维模板提升预测准确性，与迭代协同增强整体性能。

本文在多种语言模型下将迭代发现框架 TIDE 与单 agent 及多 agent 基线方法对比，评估其在检索、识别与解决多个隐藏问题方面的有效性。实验结果表明，迭代方法通过持续浮现新问题而非重复先前发现，持续优于并行方法，且随着问题复杂度增加，性能优势愈发显著。此外，思维模板显著提升预测准确性，其与迭代发现的结合在各评估阶段均带来更优的整体检测覆盖范围与推理可靠性。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 天前

Soyeong Jeong Jinheon Baek Minki Kang Sung Ju Hwang

摘要

一句话总结

核心贡献

本文提出 TIDE，一种由模板引导的迭代框架，无需依赖明确的用户请求即可从上下文中发现多个隐藏问题。每次发现轮次均基于先前识别的问题进行条件约束，从而在并存的挑战中迭代扩展覆盖范围。
该框架将思维模板重新用作发现模式，明确需关注的上下文信号及其连接方式，以推断未明确表述的问题。该设计使每次预测锚定于可识别的问题类别，而非针对预定义任务优化解决方案。
实证评估在两种真实场景和四个基础模型上均展现出一致的性能提升。该框架保持固定的推理模板，可跨模型迁移，并在相同计算预算下相较于多 agent 基线方法提供更优的覆盖范围权衡。

引言

数据集

数据集构成与来源
- 本文构建了两个以多问题发现结构为核心的评估数据集，通过扩展合成数据与现实世界数据源，填补了基准测试的空白。
- 其中一组模拟个人数字工作区，另一组捕获实时开源软件仓库。
子集详情
- 个人工作区： 基于 Pasternak 等人（2025）的流水线构建，该子集包含分布在 30 个工作区中的 150 个问题。每个实例包含用户档案及 88 至 113 个工件（如文档、邮件和日历条目）。解决问题需要跨多个文件综合证据，其余项目作为合理的干扰项。解决方案遵循预定义的操作模式，并附带具体的执行参数。
- 软件仓库： 源自 SWE-BENCH 和 TESTEXPLORA 中的 Python 项目，该子集涵盖来自 11 个仓库的 20 个多缺陷实例，共 146 个问题。每个实例捕获共享提交时的仓库快照，包含 2 至 41 个未解决问题及 6 至 646 个候选函数。本文作者将问题分组至一个公共锚定提交，其中所有目标缺陷均未修复，仅保留包含至少两个影响多个函数的共存缺陷的组。标准解决方案为原始拉取请求补丁。
数据使用与处理
- 本文严格将这两个子集保留用于评估与推理，而非模型训练，并构建专用测试划分以衡量从上下文中发现多问题的能力。
- 在推理阶段，模型处理精心筛选的上下文窗口，以隔离并发问题、生成解决方案或提取推理模式。
- 该流水线利用少样本模板生成技术，处理已解决的示例以构建可复用的模式池，从而指导 agent 在新实例上的决策过程。
元数据与结构处理
- 上下文窗口在信号与噪声之间保持刻意平衡，干扰工件或函数经过精心筛选，以模拟项目相关性，但不包含实际问题。
- 针对代码子集，本文作者提取基于 diff 的元数据，将补丁前代码视为缺陷形态，补丁后代码视为修复形态，diff 本身视为修复意图。
- 通过提示词生成结构化的 JSON 模板池，提取与仓库无关的瓶颈模式及逐步证据流。推理阶段仅向 agent 暴露模式描述与证据流，完整模板结构保持内部状态。

方法

实验

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

TIDE：基于模板引导迭代的主动多问题发现

Soyeong Jeong Jinheon Baek Minki Kang Sung Ju Hwang

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

TIDE：基于模板引导迭代的主动多问题发现

Soyeong Jeong Jinheon Baek Minki Kang Sung Ju Hwang

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

TIDE：基于模板引导迭代的主动多问题发现

Soyeong Jeong Jinheon Baek Minki Kang Sung Ju Hwang

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters