복합적인 개방형 질문에 대한 답변을 위한 반복적 질의 생성

현재의 단일 단계 검색-읽기(question answering, QA) 시스템은 “‘Armada’의 저자인 작가의 어떤 소설이 스티븐 스필버그에 의해 장편 영화로 제작될 것인가?”와 같은 질문에 답하는 데 어려움을 겪는다. 이는 질문 자체가 누락된 엔티티(여기서는 저자)에 대한 검색 가능한 단서를 거의 포함하지 않기 때문이다. 이러한 질문에 답하기 위해서는 다단계 추론(multi-hop reasoning)이 필요하며, 먼저 누락된 엔티티(또는 관련 사실)에 대한 정보를 수집한 후에야 추가적인 추론을 진행할 수 있다. 본 연구에서는 오픈 도메인 다단계 질문에 대해 효과적으로 대응할 수 있도록, 읽기(context reading)와 보조 문서 검색을 반복적으로 수행하는 GoldEn(Gold Entity) Retriever를 제안한다. 기존의 투명성 낮고 계산 비용이 큰 신경망 기반 검색 모델을 사용하지 않고, 질문과 현재까지 확보한 맥락을 바탕으로 자연어 형식의 검색 쿼리를 생성한 후, 사전에 존재하는 정보 검색 시스템을 활용하여 누락된 엔티티를 탐색한다. 이 방법은 사전 학습된 언어 모델(BERT 등)을 사용하지 않음에도 불구하고, 오픈 도메인 다단계 추론에 대해 효율적으로 확장 가능하면서도 해석 가능성(interpretability)을 유지할 수 있게 한다. 우리는 최근 제안된 오픈 도메인 다단계 QA 데이터셋인 HotpotQA를 대상으로 GoldEn Retriever를 평가하였으며, 기존에 발표된 최고 성능 모델과 비교하여도 우수한 성능을 보여주었다.