11일 전

BM25S: 급진적인 희소 스코어링을 통한 주어진 크기의 더 빠른 어휘 검색

Xing Han Lù
BM25S: 급진적인 희소 스코어링을 통한 주어진 크기의 더 빠른 어휘 검색
초록

BM25S는 Numpy와 Scipy만에 의존하는 효율적인 파이썬 기반 BM25 구현체를 소개한다. BM25S는 인덱싱 과정에서 BM25 점수를 사전에 계산하여 희소 행렬(sparse matrices)에 저장함으로써, 가장 인기 있는 파이썬 기반 프레임워크 대비 최대 500배의 속도 향상을 달성한다. 또한, 대표적인 상용 제품에서 사용되는 고도로 최적화된 자바 기반 구현체들과 비교해도 상당한 성능 향상을 보인다. 더불어, Kamphuis 등(2020)의 연구에 기반한 다섯 가지 BM25 변형의 정확한 구현을 재현하기 위해, 새로운 점수 이동( score shifting) 기법을 활용해 사전 계산 방식(eager scoring)을 비희소(non-sparse) 변형으로 확장하였다. 코드는 https://github.com/xhluca/bm25s 에서 확인할 수 있다.

BM25S: 급진적인 희소 스코어링을 통한 주어진 크기의 더 빠른 어휘 검색 | 최신 연구 논문 | HyperAI초신경