17일 전

도메인 일치 전훈련 작업을 통한 밀집 검색

Barlas Oğuz, Kushal Lakhotia, Anchit Gupta, Patrick Lewis, Vladimir Karpukhin, Aleksandra Piktus, Xilun Chen, Sebastian Riedel, Wen-tau Yih, Sonal Gupta, Yashar Mehdad
도메인 일치 전훈련 작업을 통한 밀집 검색
초록

모델 크기가 점점 커지고 더 큰 데이터셋에서의 사전 학습은 거의 모든 자연어 처리(NLP) 작업에서 성능 향상에 효과적인 방법으로 입증되었다. 그러나 정보 검색(information retrieval) 분야는 이와는 달리, 추가적인 사전 학습이 아직 설득력 있는 결과를 내지 못한 주목할 만한 예외였다. 본 연구에서는 적절한 사전 학습 설정을 통해 이 장벽을 극복할 수 있음을 보여준다. 이를 위해, 최근 공개된 6,500만 개의 합성 생성된 질문 데이터셋과, pushshift.io가 제공한 Reddit 대화 데이터셋에서 추출한 2억 개의 게시글-댓글 쌍을 활용하여 대규모 이중 인코더(bi-encoder) 모델을 사전 학습시켰다. 정보 검색 및 대화 검색 벤치마크에서 평가한 결과, 기존의 지도 학습 기반 기준 모델 대비 상당한 성능 향상을 확인할 수 있었다.

도메인 일치 전훈련 작업을 통한 밀집 검색 | 최신 연구 논문 | HyperAI초신경