2달 전

CoQA, SQuAD 2.0 및 QuAC의 질적 비교

Mark Yatskar

초록

우리는 질문 응답을 위한 세 가지 새로운 데이터셋인 SQuAD 2.0, QuAC, 그리고 CoQA를 비교합니다. 이들 데이터셋의 새로운 특징 중 (1) 답할 수 없는 질문, (2) 다중 턴 상호작용, (3) 추상적 답변(abstractive answers) 등을 중심으로 분석하였습니다. 결과적으로 이 데이터셋들은 첫 두 측면에서 보완적인 커버리지를 제공하지만, 세 번째 측면에서는 약한 커버리지를 보였습니다. 데이터셋들의 구조적 유사성 덕분에 단일 추출 모델(extractive model)을 쉽게 어느 데이터셋에도 적응시킬 수 있으며, 이를 통해 SQuAD 2.0와 CoQA에서 개선된 기준 성능(baseline results)을 보여주었습니다. 그러나 이러한 유사성에도 불구하고 한 데이터셋에서 학습된 모델은 다른 데이터셋에서는 효과적이지 않았지만, 사전 학습(pretraining)을 통해 중등도의 성능 개선을 발견하였습니다. 교차 평가를 장려하기 위해, 우리는 https://github.com/my89/co-squac 에서 데이터셋 간 변환 코드를 공개합니다.