9일 전
매우 훌륭한 질문과 그 위치: 동화QA — 서사 이해를 위한 진정성 있는 데이터셋
Ying Xu, Dakuo Wang, Mo Yu, Daniel Ritchie, Bingsheng Yao, Tongshuang Wu, Zheng Zhang, Toby Jia-Jun Li, Nora Bradford, Branda Sun, Tran Bao Hoang, Yisi Sang, Yufang Hou, Xiaojuan Ma, Diyi Yang, Nanyun Peng, Zhou Yu, Mark Warschauer

초록
질의응답(QA)은 기계와 어린 아이들이 서사 이해 능력을 평가하고 훈련하는 데 핵심적인 수단이지만, 이 목적에 맞게 철저히 설계된 고품질 QA 데이터셋은 여전히 부족한 실정이다. 특히 기존 데이터셋은 서사 요소의 다양성을 반영하는 세부적인 독해 능력(예: 다양한 서사 요소에 대한 이해)을 구분하는 경우가 거의 없다. 본 연구는 독해 교육 분야의 연구 성과를 바탕으로, 유치원부터 8학년 학생들을 대상으로 한 서사 이해 능력 향상을 목표로 하는 FairytaleQA 데이터셋을 제안한다. 이 데이터셋은 근거 기반 이론적 프레임워크에 기반해 교육 전문가들에 의해 생성되었으며, 278편의 어린이 친화적인 이야기에서 유도된 10,580개의 명시적 및 암시적 질문을 포함하고 있으며, 서사 요소 또는 관계 유형 7종을 포괄한다. 본 데이터셋은 두 가지 측면에서 높은 가치를 지닌다. 첫째, 기존 QA 모델을 본 데이터셋에 적용하여, 해당 어노테이션이 모델의 세부적인 학습 능력을 평가하는 데 기여함을 확인하였다. 둘째, 본 데이터셋은 교육 분야에서 질의 생성(QG) 작업을 지원한다. 다양한 QG 모델과의 벤치마킹을 통해, FairytaleQA를 기반으로 훈련된 QG 모델이 고품질且 다양성 있는 질문을 생성할 수 있음을 입증하였다.