
초록
신경망은 복잡한 언어 패턴과 쿼리-문서 관계를 자동으로 학습할 수 있는 새로운 가능성을 제공합니다. 신경 정보 검색(Neural IR) 모델들은 쿼리-문서 관련성 패턴을 학습하는 데 있어 유망한 결과를 달성하였지만, 쿼리나 문서의 텍스트 내용을 이해하는 데 대한 연구는 아직 많이 이루어지지 않았습니다. 본 논문에서는 최근 제안된 문맥 기반 신경언어모델인 BERT를 활용하여 정보 검색(IR)에서 더 깊은 텍스트 이해를 제공하는 방법에 대해 연구하였습니다. 실험 결과, BERT에서 얻은 문맥 기반 텍스트 표현이 전통적인 단어 임베딩보다 더 효과적임을 입증하였습니다. 단어 집합(bag-of-words) 검색 모델과 비교했을 때, 문맥 기반 언어 모델은 자연 언어로 작성된 쿼리를 처리하는 데 있어 언어 구조를 더 잘 활용하여 큰 개선 효과를 보였습니다. 텍스트 이해 능력과 검색 지식을 결합한 것이 개선된 사전 학습 BERT 모델을 만들어내며, 이는 훈련 데이터가 제한적인 관련 검색 작업에 도움이 됩니다.