摘要

检索增强生成（Retrieval-Augmented Generation, RAG）方法通过将信息检索（Information Retrieval, IR）技术与大语言模型（Large Language Models, LLMs）相结合，显著提升了问答系统与对话生成任务的性能。该策略通过从外部知识库中检索相关信息，以增强生成模型的响应能力，已在多个场景中取得一定成效。然而，现有RAG方法在处理多跳查询（multi-hop queries）时仍面临诸多挑战。例如，部分方法过度依赖迭代式检索，导致在复杂查询上消耗过多检索步骤；此外，直接使用原始复杂查询进行检索，可能无法有效捕捉与具体子查询相关的内容，从而引入噪声信息。若未能妥善处理这些噪声，将引发噪声累积问题。为解决上述问题，本文提出HANRAG——一种基于启发式规则的新型框架，旨在高效应对不同复杂度的查询任务。HANRAG由一个强大的“揭示器”（revelator）驱动，能够智能地路由查询、将其分解为子查询，并对检索到的文档进行噪声过滤。这一机制显著提升了系统的适应性与抗噪能力，使其能够有效应对多样化的查询需求。我们在多个基准测试中将所提出的框架与当前主流工业方法进行对比，实验结果表明，HANRAG在单跳与多跳问答任务中均取得了优越的性能表现。

源 PDF