HyperAI超神经

摘要

传统的的信息检索（Information Retrieval, IR）系统主要针对人类用户进行设计和训练，其排序学习（learning-to-rank）方法高度依赖于大规模的人类交互日志，例如点击量和停留时间。然而，随着由大语言模型（LLM）驱动的搜索 Agent 的快速兴起，检索正越来越多地由 Agent 而非人类进行消费，并作为核心组件嵌入到多轮推理与行动循环（reasoning and action loops）之中。在这种设定下，基于“以人为中心”假设训练的检索模型，在 Agent 发出查询（queries）和消费结果的方式上，表现出一种根本性的不匹配。在这项工作中，我们认为面向 Agent 搜索的检索模型应当直接从 Agent 的交互数据中进行训练。我们提出了一种全新的训练范式——“从 Agent 轨迹中学习检索”（learning to retrieve from agent trajectories），其监督信号源自多步 Agent 交互过程。通过对搜索 Agent 轨迹的系统性分析，我们识别出了能够揭示文档效用的关键行为信号，包括浏览行为（browsing actions）、未浏览的拒绝行为（unbrowsed rejections）以及浏览后的推理痕迹（post-browse reasoning traces）。基于这些见解，我们提出了 LRAT，这是一个简单且高效的框架，旨在从 Agent 轨迹中挖掘高质量的检索监督信号，并通过加权优化（weighted optimization）来引入相关性强度（relevance intensity）。在领域内（in-domain）和领域外（out-of-domain）深度研究 benchmark 上的广泛实验表明，使用 LRAT 训练的检索器在不同的 Agent 架构和规模下，都能持续提升证据召回率（evidence recall）、端到端任务成功率以及执行效率。我们的研究结果强调了 Agent 轨迹是一种实用且可扩展的监督来源，为 Agent 搜索时代的检索技术指明了一个极具前景的方向。

摘要

Yuqi Zhou Sunhao Dai Changle Qu Liang Pang Jun Xu Ji-Rong Wen

摘要

用 AI 构建 AI

HyperAI Newsletters

Yuqi Zhou Sunhao Dai Changle Qu Liang Pang Jun Xu Ji-Rong Wen

摘要

用 AI 构建 AI

HyperAI Newsletters

Yuqi Zhou Sunhao Dai Changle Qu Liang Pang Jun Xu Ji-Rong Wen

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

从 Agent Trajectories 中学习检索策略

Yuqi Zhou Sunhao Dai Changle Qu Liang Pang Jun Xu Ji-Rong Wen

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

从 Agent Trajectories 中学习检索策略

Yuqi Zhou Sunhao Dai Changle Qu Liang Pang Jun Xu Ji-Rong Wen

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

从 Agent Trajectories 中学习检索策略

Yuqi Zhou Sunhao Dai Changle Qu Liang Pang Jun Xu Ji-Rong Wen

摘要

用 AI 构建 AI

HyperAI Newsletters