17 天前

BEIR:面向信息检索模型零样本评估的异构基准

Nandan Thakur, Nils Reimers, Andreas Rücklé, Abhishek Srivastava, Iryna Gurevych
BEIR:面向信息检索模型零样本评估的异构基准
摘要

现有的神经信息检索(IR)模型通常在同质且狭窄的设置下进行研究,这在很大程度上限制了对其分布外(OOD)泛化能力的深入理解。为解决这一问题,并帮助研究人员更广泛地评估其模型的有效性,我们提出了 Benchmarking-IR(BEIR),一个稳健且异构的信息检索评估基准。BEIR 通过精心选取来自多种文本检索任务与领域的 18 个公开数据集,对 10 种先进的检索系统进行了全面评估,涵盖词法检索、稀疏表示、稠密表示、晚期交互以及重排序等多种架构。实验结果表明,BM25 作为一种稳健的基线方法表现优异;而基于重排序与晚期交互的模型在零样本(zero-shot)场景下平均表现最佳,但其计算开销较高。相比之下,稠密检索与稀疏检索模型在计算效率方面更具优势,但通常在性能上落后于其他方法,凸显了其泛化能力仍有显著提升空间。我们期望该框架能够促进对现有检索系统的更深入评估与理解,并推动未来构建更具鲁棒性与泛化能力的信息检索系统的发展。BEIR 已开源,访问地址为:https://github.com/UKPLab/beir。