질문 생성을 위한 학습: 답변을 포함하는 문장 복원을 통해

기계 독해 기반의 질문 응답 모델을 훈련시키기 위해서는 문맥에서 질문과 그에 해당하는 정답으로 구성된 주석 데이터를 준비하는 데 상당한 노력이 필요하다. 이 문제를 완화하기 위해 최근 연구들은 추가적인 생성 모델을 훈련시켜 주어진 문맥과 주석(또는 생성된) 정답으로부터 질문을 합성적으로 생성하는 방향으로 집중하고 있다. 이러한 연구 흐름을 반영하여, 본 연구에서는 정답을 포함하는 문장을 복원하는 방식으로 맥락이 � бог rich한 질문을 생성할 수 있도록 사전 훈련하는 새로운 접근법을 제안한다. 제안하는 방법은 두 가지 새로운 구성 요소로 이루어져 있다. 첫째, 주어진 문서에서 동적으로 K개의 정답을 결정하는 방식이며, 둘째, 정답을 포함하는 문장을 생성하는 작업에 대해 질문 생성기의 사전 훈련을 수행하는 것이다. 제안한 방법은 기존 방법들과 비교하여 생성된 질문의 품질 및 본 방법으로 합성된 데이터를 기반으로 훈련된 후 미세조정된 MRC 모델의 정확도 측면에서 평가되었다. 실험 결과, 본 방법은 UniLM과 같은 기존 모델의 질문 생성 능력을 일관되게 향상시키며, MS MARCO와 NewsQA에서는 최신 기술 수준의 성능을 보였으며, SQuAD에서는 최신 기술과 비교 가능한 성능을 나타냈다. 또한 본 방법으로 합성된 데이터가 기존 MRC 모델에 어떠한 수정 없이도 SQuAD-v1.1, v2.0, KorQuAD 등 다양한 다운스트림 데이터셋에서 MRC 정확도를 향상시키는 데 유익함을 입증하였다. 더불어 실험을 통해 본 방법이 사전 훈련 단계와 다운스트림 MRC 데이터 모두에서 제한된 훈련 데이터가 주어졌을 때 특히 뛰어난 성능을 발휘함을 확인하였다.