17일 전

RocketQA: 개방형 질문 응답을 위한 밀도 높은 문단 검색을 위한 최적화된 훈련 접근법

Yingqi Qu, Yuchen Ding, Jing Liu, Kai Liu, Ruiyang Ren, Wayne Xin Zhao, Daxiang Dong, Hua Wu, Haifeng Wang
RocketQA: 개방형 질문 응답을 위한 밀도 높은 문단 검색을 위한 최적화된 훈련 접근법
초록

오픈 도메인 질의응답에서 밀도 있는 패스지 검색(dense passage retrieval)은 답변을 찾기 위해 관련 패스지를 검색하는 새로운 패러다임으로 부상하고 있다. 일반적으로 이중 인코더(dual-encoder) 아키텍처가 질문과 패스지에 대한 밀도 있는 표현을 학습하여 의미적 매칭을 수행하는 데 활용된다. 그러나 학습과 추론 간의 차이, 레이블이 없는 긍정 샘플의 존재, 그리고 제한된 학습 데이터 등의 도전 과제로 인해 이중 인코더를 효과적으로 학습하는 것은 어려운 과제이다. 이러한 문제를 해결하기 위해, 밀도 있는 패스지 검색 성능을 향상시키기 위한 최적화된 학습 방법인 RocketQA를 제안한다. RocketQA는 세 가지 주요 기술 기여를 한다. 첫째, 배치 간 음성 샘플(cross-batch negatives)을 도입하여 학습의 정확도를 높였고, 둘째, 노이즈 제거된 하드 음성 샘플(denoised hard negatives)을 활용하여 모델의 구분 능력을 강화하였으며, 셋째, 데이터 증강(data augmentation) 기법을 도입하여 학습 데이터의 다양성과 질을 향상시켰다. 실험 결과, RocketQA는 MSMARCO와 Natural Questions 두 벤치마크에서 기존 최고 성능 모델들을 크게 능가함을 확인하였다. 또한, RocketQA 내의 세 가지 전략의 효과성을 종합적으로 검증하기 위한 광범위한 실험을 수행하였다. 더불어, 본 연구에서 제안한 RocketQA 리트리버를 기반으로 엔드투엔드 QA 시스템의 성능 향상이 가능함을 입증하였다.