HyperAIHyperAI

Command Palette

Search for a command to run...

检索增强模型相较于LLMs在推理方面带来了多少提升?面向混合知识的多跳推理基准测试框架

Junhong Lin Bing Zhang Song Wang Ziyan Liu Dan Gutfreund Julian Shun Yada Zhu

摘要

大型语言模型(LLMs)在应对需要最新信息和多跳推理的知识密集型问题时仍面临挑战。通过引入混合外部知识(如非结构化文本与结构化知识图谱)来增强LLMs,为替代昂贵的持续预训练提供了一种有前景的解决方案。因此,对模型检索与推理能力进行可靠评估变得尤为关键。然而,现有许多基准测试数据集与LLM的预训练数据存在日益严重的重叠,导致答案或支撑性知识可能已编码于模型参数中,难以区分真正的检索与推理能力与参数化记忆(parametric recall)。为此,我们提出HybridRAG-Bench——一个用于构建基准测试框架的方法,旨在评估在混合知识源上进行的、以检索为核心的多跳推理能力。HybridRAG-Bench 自动整合来自arXiv上近期科学文献的非结构化文本与结构化知识图谱表示,并基于明确的推理路径生成知识密集型的问答对。该框架支持灵活的领域与时间范围选择,能够实现对数据污染的感知与可定制化评估,适应模型与知识库的动态演进。在人工智能、治理与政策、生物信息学三个领域的实验表明,HybridRAG-Bench 能有效奖励真正的检索与推理行为,而非依赖参数记忆。该基准为评估融合混合知识的推理系统提供了具有原则性的测试平台。相关代码与数据已开源,访问地址为:github.com/junhongmit/HybridRAG-Bench。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供