6 个月前

自然语言处理

自然语言处理

Nandan Thakur Nils Reimers Andreas Rücklé Abhishek Srivastava Iryna Gurevych

摘要

现有的神经信息检索（IR）模型通常在同质且狭窄的设置下进行研究，这在很大程度上限制了对其分布外（OOD）泛化能力的深入理解。为解决这一问题，并帮助研究人员更广泛地评估其模型的有效性，我们提出了 Benchmarking-IR（BEIR），一个稳健且异构的信息检索评估基准。BEIR 通过精心选取来自多种文本检索任务与领域的 18 个公开数据集，对 10 种先进的检索系统进行了全面评估，涵盖词法检索、稀疏表示、稠密表示、晚期交互以及重排序等多种架构。实验结果表明，BM25 作为一种稳健的基线方法表现优异；而基于重排序与晚期交互的模型在零样本（zero-shot）场景下平均表现最佳，但其计算开销较高。相比之下，稠密检索与稀疏检索模型在计算效率方面更具优势，但通常在性能上落后于其他方法，凸显了其泛化能力仍有显著提升空间。我们期望该框架能够促进对现有检索系统的更深入评估与理解，并推动未来构建更具鲁棒性与泛化能力的信息检索系统的发展。BEIR 已开源，访问地址为：https://github.com/UKPLab/beir。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Nandan Thakur Nils Reimers Andreas Rücklé Abhishek Srivastava Iryna Gurevych

摘要

现有的神经信息检索（IR）模型通常在同质且狭窄的设置下进行研究，这在很大程度上限制了对其分布外（OOD）泛化能力的深入理解。为解决这一问题，并帮助研究人员更广泛地评估其模型的有效性，我们提出了 Benchmarking-IR（BEIR），一个稳健且异构的信息检索评估基准。BEIR 通过精心选取来自多种文本检索任务与领域的 18 个公开数据集，对 10 种先进的检索系统进行了全面评估，涵盖词法检索、稀疏表示、稠密表示、晚期交互以及重排序等多种架构。实验结果表明，BM25 作为一种稳健的基线方法表现优异；而基于重排序与晚期交互的模型在零样本（zero-shot）场景下平均表现最佳，但其计算开销较高。相比之下，稠密检索与稀疏检索模型在计算效率方面更具优势，但通常在性能上落后于其他方法，凸显了其泛化能力仍有显著提升空间。我们期望该框架能够促进对现有检索系统的更深入评估与理解，并推动未来构建更具鲁棒性与泛化能力的信息检索系统的发展。BEIR 已开源，访问地址为：https://github.com/UKPLab/beir。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供