
질문-응답(QA) 모델은 일반적으로 대규모 훈련 데이터셋에 의존하기 때문에, 수동 주석(annotation) 비용을 줄이기 위해 데이터 생성 프레임워크의 개발이 필수적이다. 최근 몇몇 연구들은 단일 스팬(single-span) 응답을 가진 합성 질문을 생성하는 데 초점을 맞추었지만, 여러 개의 비연속 스팬(multiple, non-contiguous spans)을 응답으로 가지는 리스트 형 질문(list questions) 생성에 관한 연구는 아직 이루어지지 않았다. 이 격차를 메우기 위해, 우리는 비라벨링된 텍스트 코퍼스로부터 리스트 QA 데이터셋을 자동으로 생성할 수 있는 LIQUID라는 프레임워크를 제안한다. 먼저 위키백과 또는 PubMed의 문장(패스지)을 요약하고, 요약된 텍스트에서 명명된 실체(named entities)를 추출하여 후보 응답으로 활용한다. 이를 통해 문맥적으로 의미적으로 연관된 응답을 선택할 수 있으며, 이는 리스트 형 질문을 구성하는 데 적합하다. 이후 추출된 실체와 원본 문장을 기반으로 사전에 개발된 질문 생성기(question generator)를 사용하여 질문을 생성한다. 마지막으로 반복적 필터링(iterative filtering)과 응답 확장(answer expansion)을 수행하여 응답의 정확성과 완전성을 보장한다. 제안한 합성 데이터를 활용하여, 기존 최고 성능을 기록했던 리스트 QA 모델의 성능을 각각 MultiSpanQA에서 정확도 매칭 F1 점수 5.0, Quoref에서 1.9, 그리고 세 가지 BioASQ 벤치마크 평균적으로 2.8 증가시켰다.