엔드투엔드 비임 검색을 통한 다단계 질문 응답

다단계 질문 응답(Multi-hop question answering, QA)은 복잡한 질문에 답하기 위해 여러 관련 문단을 찾아내고 단계별 추론을 수행하는 과정을 포함하며, 이는 '검색-읽기'(retrieve-and-read) 패러다임을 반영한다. 그러나 기존의 검색기(retriever)는 주로 두 단계(question answering, two-hop) 질문에 맞춰 설계되었고, 대부분의 경우 각 단계마다 별도로 학습되었기 때문에 전체 다단계 검색 과정에 대한 지도 신호가 부족하여, 두 단계를 넘는 복잡한 시나리오에서는 성능이 저조한 문제가 있었다. 본 연구에서는 다단계 QA를 위한 엔드투엔드(End-to-end) 비트 검색(beam retrieval) 프레임워크인 Beam Retrieval을 제안한다. 이 방법은 모든 단계에서 인코더와 두 개의 분류 헤드를 함께 최적화함으로써 다단계 검색 과정을 엔드투엔드 방식으로 모델링한다. 또한 Beam Retrieval은 각 단계에서 관련 문단에 대한 다수의 부분적 가설을 유지함으로써 검색 공간을 확장하고, 관련 문단을 놓치는 위험을 줄인다. 완전한 QA 시스템을 구축하기 위해 지도 기반 리더(supervised reader) 또는 대규모 언어 모델(Large Language Model, LLM)을 통합하였다. 실험 결과, Beam Retrieval은 도전적인 MuSiQue-Ans 데이터셋에서 기존 베이스라인 대비 거의 50%의 성능 향상을 달성하였으며, HotpotQA에서는 이전 모든 검색기보다 뛰어난 성능을 보였고, 2WikiMultiHopQA에서는 99.9%의 정밀도를 기록하였다. 높은 품질의 컨텍스트를 제공함으로써 Beam Retrieval은 지도 기반 리더의 성능을 새로운 최고 수준으로 끌어올렸으며, LLM의 소량 학습(few-shot) QA 성능도 크게 향상시켰다.