FRAMES-benchmark 是一个由 Google 于 2024 年发布的综合评估数据集,它旨在测试检索增强生成 (RAG) 系统在事实性、检索准确性和推理方面的能力。相关论文成果为「Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation」。该数据集包含 824 个具有挑战性的多跳问题,这些问题需要从 2 到 15 篇维基百科文章中获取信息。问题涵盖了历史、体育、科学、动物、健康等多个主题,并且每个问题都标有推理类型,如数值、表格、多重约束、时间性和后处理。数据集还提供了每个问题的黄金答案和相关的维基百科文章。
FRAMES 数据集的主要特点包括测试端到端的 RAG 能力、需要整合来自多个来源的信息、包含复杂的推理和时间性消歧,并设计为对最先进的语言模型具有挑战性。该数据集可用于评估 RAG 系统性能、基准测试语言模型的事实性和推理能力,以及开发和测试多跳检索策略。