17일 전
밀도 있는 텍스트 검색을 위한 근사 최근접 이웃 음성 대비 학습
Lee Xiong, Chenyan Xiong, Ye Li, Kwok-Fung Tang, Jialin Liu, Paul Bennett, Junaid Ahmed, Arnold Overwijk

초록
밀도 있는 학습된 표현 공간에서 텍스트 검색을 수행하는 것은 희소 검색 대비 여러 매력적인 장점을 가지고 있다. 그러나 밀도 있는 검색(DR)의 효과성은 종종 희소 검색과의 결합을 필요로 한다. 본 논문에서는 주요한 성능 저하 요인이 학습 메커니즘에 있음을 지적한다. 즉, 학습 시 사용되는 부정 샘플(negative instances)이 테스트 시의 무관 문서를 충분히 대표하지 못한다는 점이다. 본 논문에서는 코퍼스의 근사 최근접 이웃(ANN) 인덱스로부터 부정 샘플을 구성하는 새로운 학습 메커니즘인 Approximate Nearest Neighbor Negative Contrastive Estimation(ANCE)을 제안한다. 이 방법은 학습 과정과 병렬적으로 업데이트되는 ANN 인덱스를 활용하여 보다 현실적인 부정 학습 샘플을 선별한다. 이는 DR의 학습과 테스트 시 사용되는 데이터 분포 간의 근본적인 불일치를 해결한다. 실험 결과, ANCE는 BERT-시아메스(DR) 모델의 성능을 크게 향상시켜 모든 경쟁적인 밀도형 및 희소 검색 기반 기준 모델을 능가하였다. 또한, ANCE로 학습된 표현 공간에서 내적(dot-product)을 사용할 경우, 희소 검색과 BERT 재정렬을 결합한 기법의 정확도에 거의 근접하며, 거의 100배의 속도 향상을 제공한다.