HyperAIHyperAI

Command Palette

Search for a command to run...

4 小时前

从 Agent Trajectories 中学习检索策略

Yuqi Zhou Sunhao Dai Changle Qu Liang Pang Jun Xu Ji-Rong Wen

摘要

传统的的信息检索(Information Retrieval, IR)系统主要针对人类用户进行设计和训练,其排序学习(learning-to-rank)方法高度依赖于大规模的人类交互日志,例如点击量和停留时间。然而,随着由大语言模型(LLM)驱动的搜索 Agent 的快速兴起,检索正越来越多地由 Agent 而非人类进行消费,并作为核心组件嵌入到多轮推理与行动循环(reasoning and action loops)之中。在这种设定下,基于“以人为中心”假设训练的检索模型,在 Agent 发出查询(queries)和消费结果的方式上,表现出一种根本性的不匹配。在这项工作中,我们认为面向 Agent 搜索的检索模型应当直接从 Agent 的交互数据中进行训练。我们提出了一种全新的训练范式——“从 Agent 轨迹中学习检索”(learning to retrieve from agent trajectories),其监督信号源自多步 Agent 交互过程。通过对搜索 Agent 轨迹的系统性分析,我们识别出了能够揭示文档效用的关键行为信号,包括浏览行为(browsing actions)、未浏览的拒绝行为(unbrowsed rejections)以及浏览后的推理痕迹(post-browse reasoning traces)。基于这些见解,我们提出了 LRAT,这是一个简单且高效的框架,旨在从 Agent 轨迹中挖掘高质量的检索监督信号,并通过加权优化(weighted optimization)来引入相关性强度(relevance intensity)。在领域内(in-domain)和领域外(out-of-domain)深度研究 benchmark 上的广泛实验表明,使用 LRAT 训练的检索器在不同的 Agent 架构和规模下,都能持续提升证据召回率(evidence recall)、端到端任务成功率以及执行效率。我们的研究结果强调了 Agent 轨迹是一种实用且可扩展的监督来源,为 Agent 搜索时代的检索技术指明了一个极具前景的方向。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供