17일 전

밀도 검색을 위한 문서 표현 강화: 보간과 변형을 통한 접근

Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park
밀도 검색을 위한 문서 표현 강화: 보간과 변형을 통한 접근
초록

밀도 있는 표현 공간에서 입력 쿼리에 가장 관련성이 높은 문서를 검색하는 것을 목표로 하는 밀집 검색 모델(Dense retrieval models)은 뛰어난 성과를 보이며 주목받고 있다. 그러나 밀집 모델은 뛰어난 성능을 발휘하기 위해 방대한 양의 레이블링된 학습 데이터가 필요하며, 인간이 쿼리-문서 쌍을 주석 처리한 데이터를 확보하는 것은 종종 어려운 과제이다. 이 문제를 해결하기 위해, 본 연구에서는 문서 표현을 보간(interpolation)과 변형(perturbation)을 통해 증강하는 간단하면서도 효과적인 Document Augmentation for dense Retrieval (DAR) 프레임워크를 제안한다. 제안한 DAR의 성능은 두 가지 벤치마크 데이터셋을 활용한 검색 작업에서 검증되었으며, 레이블링된 문서와 레이블링되지 않은 문서 모두에서 관련 기준 모델들을 크게 능가함을 보였다.

밀도 검색을 위한 문서 표현 강화: 보간과 변형을 통한 접근 | 최신 연구 논문 | HyperAI초신경