HyperAI超神经
7 days ago

RAVine:现实对齐的代理搜索评估

Yilong Xu; Xiang Long; Zhi Zheng; Jinhua Gao
RAVine:现实对齐的代理搜索评估
摘要

代理搜索(Agentic Search)作为一种更加自主和适应性的检索增强范式,正在推动智能搜索系统的演进。然而,现有的评估框架与代理搜索的目标并不完全契合。首先,当前基准中常用的复杂查询往往偏离真实的用户搜索场景。其次,以往的方法在提取端到端评估的“真实答案”时容易引入噪声,从而导致在细粒度层面的评估结果失真。第三,大多数现有框架仅关注最终答案的质量,而忽视了对代理搜索固有迭代过程的评估。为解决这些局限性,我们提出了 RAVine —— 一个与现实对齐的评估框架,用于代理大语言模型(agentic LLMs)的搜索任务。RAVine 针对多点查询(multi-point queries)和长文本回答(long-form answers),这些更能够反映用户的实际意图,并引入了一种可归因的真实答案构建策略,以提升细粒度评估的准确性。此外,RAVine 还评估模型在整个迭代过程中与搜索工具的交互情况,并考虑了效率因素。我们使用 RAVine 对一系列模型进行了基准测试,并得出了一些有价值的见解,希望这些见解能有助于推动代理搜索系统的进一步发展。代码和数据集可在 https://github.com/SwordFaith/RAVine 获取。