엔드투엔드 쿼리 텀 가중치 부여
단어의 집합(BoW) 기반의 어휘 검색 시스템은 여전히 실세계 검색 응용에서 가장 널리 사용되는 방법이다. 최근에는 딥러닝 기법이 이러한 검색 성능을 향상시키는 데 있어 유망한 성과를 보여주고 있으나, 온라인 환경에서 실행하는 데 비용이 크며, 기존의 생산 시스템에 통합하기 어렵고, 도메인 외 검색 시나리오에서는 일반화 성능이 떨어질 수 있다. 본 연구에서는 이러한 어휘 검색기 기반으로 Term Weighting BERT(TW-BERT) 모델을 제안한다. TW-BERT는 입력 쿼리의 개별 n-그램(예: 유니그램 및 바이그램)에 대해 가중치를 예측하도록 학습한다. 추론된 가중치와 단어들은 검색 시스템이 쿼리 검색을 수행하는 데 직접 사용할 수 있다. 이러한 단어 가중치를 최적화하기 위해 TW-BERT는 검색 엔진에서 사용하는 점수 함수(예: BM25)를 활용하여 쿼리-문서 쌍의 매칭 점수를 계산한다. 주어진 쿼리-문서 쌍 샘플을 기반으로 이러한 매칭 점수에 대해 순위 손실(Ranking Loss)을 계산함으로써, 학습된 쿼리 단어 가중치를 엔드투엔드 방식으로 최적화할 수 있다. TW-BERT를 검색 엔진의 점수 함수와 일치시킴으로써, 기존 생산 시스템에 통합하기 위해 필요한 변경 사항을 최소화할 수 있으며, 기존 딥러닝 기반 검색 방법에 비해 추가적인 인프라 최적화 및 하드웨어 요구 사항이 필요하지 않다. 학습된 가중치는 표준 어휘 검색기뿐 아니라 쿼리 확장과 같은 다른 검색 기법에도 간편하게 활용할 수 있다. 본 연구에서는 TW-BERT가 MSMARCO 데이터셋에서 강력한 어휘 가중치 기반 기준 모델보다 검색 성능을 향상시키며, TREC 데이터셋을 이용한 도메인 외 검색 시나리오에서도 우수한 성능을 보임을 입증한다.