적응형 정보 탐색을 통한 개방형 도메인 질의 응답

정보 탐색은 대규모 코퍼스에서 증거를 효율적으로 수집하기 위해 오픈도메인 질의응답(Open-Domain Question Answering)에서 필수적인 단계이다. 최근 들어, 복잡한 질문에 대해 반복적 접근법(iterative approaches)이 효과적임이 입증되었으며, 각 단계에서 새로운 증거를 재귀적으로 검색함으로써 성능을 향상시킬 수 있다. 그러나 기존의 대부분의 반복적 접근법은 사전 정의된 전략을 사용하는데, 이는 동일한 검색 함수를 여러 번 적용하거나 다양한 검색 함수의 적용 순서를 고정하는 방식으로 이루어져, 질문의 다양성에 따라 달라지는 요구사항을 충족시키지 못한다. 본 논문에서는 오픈도메인 질의응답을 위한 새로운 적응형 정보 탐색 전략인 AISO(Adaptive Information-Seeking Strategy)를 제안한다. 구체적으로, 전체 검색 및 답변 과정을 부분 관측 가능한 마르코프 결정 과정(Partially Observed Markov Decision Process, POMDP)으로 모델링하며, 세 가지 유형의 검색 작업(BM25, DPR, 하이퍼링크)과 하나의 답변 작업을 행동(actions)으로 정의한다. 학습된 정책에 따라 AISO는 수집된 증거와 재구성된 질의(query)를 기반으로, 각 단계에서 누락된 증거를 탐색하기 위해 적절한 검색 행동을 적응적으로 선택하거나, 증거 집합이 질문에 충분할 경우 직접 답변을 출력할 수 있다. SQuAD Open과 HotpotQA fullwiki를 대상으로 한 실험 결과, 이들 데이터셋은 각각 단일단계(single-hop) 및 다단계(multi-hop) 오픈도메인 QA의 기준 벤치마크로 활용되며, AISO는 모든 사전 정의 전략을 가진 기준 방법들보다 검색 및 답변 평가 측면에서 모두 우수한 성능을 보였다.