
초록
질의응답(QA)는 대규모 데이터셋의 가용성과 신경망 모델의 효과성 덕분에 큰 성과를 거두었다. 최근 연구들은 이러한 성공을 레이블이 거의 또는 전혀 없는 환경으로 확장하려는 시도를 하고 있다. 본 연구에서는 비지도 QA 성능을 향상시키기 위한 두 가지 접근법을 제안한다. 첫째, 위키백과에서 어휘적·구문적으로 다양한 질문을 수집하여 질문-답변 쌍의 코퍼스(이를 RefQA라고 명명)를 자동으로 구축한다. 둘째, QA 모델을 활용하여 더 적절한 답변을 추출하고, 이를 통해 RefQA 코퍼스에 대해 반복적으로 데이터를 개선한다. 우리는 SQuAD 1.1과 NewsQA에서 수동으로 레이블링된 데이터에 접근하지 않고 BERT를 미세조정(fine-tuning)하여 실험을 수행하였다. 제안하는 방법은 이전의 비지도 접근법보다 크게 우수하며, 초기 지도 학습 모델과도 경쟁 가능한 성능을 보였다. 또한, 본 방법이 소량의 학습 데이터( few-shot learning) 환경에서도 효과적임을 입증하였다.