
초록
최근의 최첨단 개방형 도메인 질의 응답 시스템들은 일반적으로 지식 소스에서 문장 조각을 추출하기 위해 신경망 기반의 검색 모델을 사용하여 문장 조각을 연속 벡터로 인코딩한다. 그러나 이러한 검색 모델은 문장 조각 인덱스의 규모가 매우 크기 때문에 실행 시 대량의 메모리를 요구하는 경우가 많다. 본 논문에서는 상태의 기술(Dense Passage Retriever, DPR)에 학습 기반 해시(learning-to-hash) 기법을 통합하여 문장 조각 인덱스를 연속 벡터가 아닌 컴팩트한 이진 코드(binary codes)로 표현함으로써 메모리 효율성을 극대화한 메모리 효율적인 신경망 검색 모델인 이진 문장 조각 검색기(Binary Passage Retriever, BPR)를 제안한다. BPR은 이진 코드를 기반으로 효율적인 후보 생성과 연속 벡터를 기반으로 정확한 재정렬이라는 두 가지 작업을 동시에 고려한 다중 목적(multi-task) 학습 방식으로 훈련된다. 자연 질문(Natural Questions) 및 트리비아QA(TriviaQA)와 같은 두 가지 표준 개방형 도메인 질의 응답 벤치마크에서, BPR은 정확도 손실 없이 메모리 비용을 기존 DPR 대비 65GB에서 2GB로 대폭 감소시켰다. 본 연구의 코드와 훈련된 모델은 https://github.com/studio-ousia/bpr 에서 공개되어 있다.