17일 전
BEIR: 정보 검색 모델의 제로샷 평가를 위한 이질적 벤치마크
Nandan Thakur, Nils Reimers, Andreas Rücklé, Abhishek Srivastava, Iryna Gurevych

초록
기존의 신경망 기반 정보 검색(IR) 모델들은 일반적으로 동질적이고 제한된 환경에서 연구되어 왔으며, 이로 인해 모델의 분포 외(OOD) 일반화 능력에 대한 통찰이 상당히 제한되어 왔다. 이러한 문제를 해결하고 연구자들이 자신의 모델 효과를 포괄적으로 평가할 수 있도록 하기 위해, 우리는 정보 검색을 위한 강력하고 이질적인 평가 벤치마크인 Benchmarking-IR(BEIR)를 소개한다. BEIR는 다양한 텍스트 검색 작업과 도메인에서 공개된 18개의 데이터셋을 철저히 선정하여 구성하였으며, 어휘 기반, 희소, 밀집, 후기 상호작용, 재정렬 아키텍처를 포함한 10개의 최첨단 검색 시스템을 BEIR 벤치마크에서 평가하였다. 실험 결과, BM25는 견고한 기준 모델로 나타났으며, 재정렬 및 후기 상호작용 기반 모델은 평균적으로 가장 뛰어난 제로샷 성능을 보였지만, 높은 계산 비용을 수반한다. 반면 밀집형 및 희소 검색 모델은 계산 효율성이 뛰어나지만, 종종 다른 접근 방식에 비해 성능이 뒤처지는 경향이 있어, 이러한 모델들의 일반화 능력 향상 여지가 여전히 크다는 점을 시사한다. 우리는 이 프레임워크가 기존 검색 시스템의 평가와 이해를 더 잘할 수 있도록 하고, 향후 더 견고하고 일반화 능력이 뛰어난 시스템 개발을 가속화하는 데 기여하기를 기대한다. BEIR는 공개적으로 제공되며, 다음 주소에서 접근 가능하다: https://github.com/UKPLab/beir.