HyperAI超神经

FreshStack: 构建用于评估技术文档检索的现实基准测试

Nandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov
发布日期: 4/18/2025
FreshStack: 构建用于评估技术文档检索的现实基准测试
摘要

我们介绍了FreshStack,一个可重用的框架,用于从社区提问和回答中自动构建信息检索(IR)评估基准。FreshStack执行以下步骤:(1)从代码和技术文档中自动收集语料库,(2)从社区提问和回答中生成信息片段(nugget),以及(3)信息片段级别的支持,使用检索技术融合和混合架构检索文档。我们利用FreshStack构建了五个关于快速增长、近期和小众主题的数据集,以确保任务具有足够的挑战性。在FreshStack上,现有的检索模型在未经调整的情况下,在所有五个主题上的表现显著低于理想方法,表明在提高信息检索质量方面有很大的提升空间。此外,我们还发现,在两个主题中,重排序器并未明显改善第一阶段的检索准确性。我们希望FreshStack能够促进未来构建现实、可扩展且未受污染的信息检索和基于检索的生成(RAG)评估基准的工作。FreshStack数据集可在以下网址获取:https://fresh-stack.github.io。