2 个月前

CoIR:代码信息检索模型的综合基准测试

Li, Xiangyang ; Dong, Kuicai ; Lee, Yi Quan ; Xia, Wei ; Zhang, Hao ; Dai, Xinyi ; Wang, Yasheng ; Tang, Ruiming
CoIR:代码信息检索模型的综合基准测试
摘要

尽管信息检索(IR)在各种自然语言处理(NLP)任务中取得了显著成功,大多数IR系统主要处理自然语言的查询和语料库,而忽视了代码检索领域。代码检索至关重要,但目前的研究仍相对不足,现有的方法和基准测试未能充分反映不同领域和任务中代码的多样性。为填补这一空白,我们推出了COIR(代码信息检索基准),这是一个专门设计用于评估代码检索能力的稳健且全面的基准测试工具。COIR包含十个精心策划的代码数据集,涵盖了七个不同领域的八个独特检索任务。首先,我们将讨论COIR的构建及其多样化的数据集组成。随后,我们使用COIR对九个广泛使用的检索模型进行了评估,发现即使是最先进的系统在执行代码检索任务时也存在显著困难。为了便于现有研究工作流程中的采用和集成,COIR被开发为一个用户友好的Python框架,并可通过pip轻松安装。它与其他流行基准测试工具如MTEB和BEIR共享相同的数据模式,从而实现无缝的跨基准测试评估。通过COIR,我们旨在激发代码检索领域的研究热情,提供一个多功能的基准测试工具,鼓励进一步开发和探索代码检索系统。https://github.com/CoIR-team/coir.

CoIR:代码信息检索模型的综合基准测试 | 最新论文 | HyperAI超神经