Command Palette

Search for a command to run...

6 天前

InteractComp:使用模糊查询评估Search Agent

InteractComp:使用模糊查询评估Search Agent

摘要

语言代理在网页搜索与信息检索任务中展现出巨大的潜力。然而,现有搜索代理通常假设用户查询是完整且明确的,这一假设与现实情况相悖——用户往往从不完整、模糊的查询出发,需要通过交互过程逐步澄清意图。然而,大多数搜索代理在搜索过程中缺乏有效的交互机制,而现有的评估基准也难以衡量这一能力。为填补这一空白,我们提出了 InteractComp,一个旨在评估搜索代理是否能够识别查询模糊性,并在搜索过程中主动通过交互加以澄清的基准测试。遵循“易于验证、通过交互消除歧义”的原则,我们采用目标-干扰物(target-distractor)方法,精心构建了涵盖9个领域的210个专家标注问题,其中每道问题均设计为具有真实存在的模糊性,仅通过交互才能有效解决。对17个模型的评估结果令人震惊:即使在提供完整上下文的情况下,表现最佳的模型准确率也仅为13.73%,而若提供完整信息,其准确率可达71.50%。这一显著差距揭示出模型存在系统性过度自信,而非推理能力不足。当强制引入交互机制后,性能出现显著提升,表明当前主流策略未能有效激发模型潜在的交互能力。纵向分析显示,在长达15个月的时间跨度内,模型的交互能力基本停滞不前,而其整体搜索性能却提升了七倍,暴露出一个关键的盲区。这一能力停滞现象,加之搜索任务本身具备即时反馈的特性,使得 InteractComp 成为评估与训练搜索代理交互能力的宝贵资源。相关代码已开源,地址为:https://github.com/FoundationAgents/InteractComp。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供