17일 전
주목할 만한 어구 인지 밀집 검색: 밀집 검색기가 희소 검색기를 모방할 수 있는가?
Xilun Chen, Kushal Lakhotia, Barlas Oğuz, Anchit Gupta, Patrick Lewis, Stan Peshterliev, Yashar Mehdad, Sonal Gupta, Wen-tau Yih

초록
최근 인기를 끌고 있는 밀도 높은 검색기(dense retrievers)는 여전히 BM25와 같은 희소 방법(sparse methods)에 비해 쿼리 내 핵심 어절과 희귀 엔티티를 신뢰할 수 있게 매칭하는 능력, 그리고 도메인 외 데이터에 대한 일반화 능력에서 뒤처지고 있다. 이에 대해 일부는 이는 밀도 높은 모델의 본질적인 한계라고 주장해 왔다. 그러나 우리는 밀도 높은 검색기인 '핵심 어절 인지 검색기(Salient Phrase Aware Retriever, SPAR)'를 제안함으로써 이 주장을 반박한다. SPAR는 희소 모델의 어휘 매칭 능력을 갖춘 밀도 높은 검색기이다. 우리는 밀도 높은 어휘 모델 Λ가 희소 모델을 모방하도록 훈련할 수 있음을 보이며, SPAR는 표준 밀도 높은 검색기에 Λ를 보강함으로써 구현된다. 실험적으로 SPAR는 다섯 개의 질문 응답 데이터셋, MS MARCO 문장 검색, 그리고 도메인 외 평가를 위한 EntityQuestions 및 BEIR 벤치마크에서 우수한 성능을 보였다. 이는 최첨단 밀도 높은 검색기와 희소 검색기의 성능을 모두 초월한다. SPAR의 코드 및 모델은 다음에서 공개되어 있다: https://github.com/facebookresearch/dpr-scale/tree/main/spar