9일 전

매우 훌륭한 질문과 그 위치: 동화QA — 서사 이해를 위한 진정성 있는 데이터셋

Ying Xu, Dakuo Wang, Mo Yu, Daniel Ritchie, Bingsheng Yao, Tongshuang Wu, Zheng Zhang, Toby Jia-Jun Li, Nora Bradford, Branda Sun, Tran Bao Hoang, Yisi Sang, Yufang Hou, Xiaojuan Ma, Diyi Yang, Nanyun Peng, Zhou Yu, Mark Warschauer

논문 세부 정보 보기

매우 훌륭한 질문과 그 위치: 동화QA — 서사 이해를 위한 진정성 있는 데이터셋

초록

질의응답(QA)은 기계와 어린 아이들이 서사 이해 능력을 평가하고 훈련하는 데 핵심적인 수단이지만, 이 목적에 맞게 철저히 설계된 고품질 QA 데이터셋은 여전히 부족한 실정이다. 특히 기존 데이터셋은 서사 요소의 다양성을 반영하는 세부적인 독해 능력(예: 다양한 서사 요소에 대한 이해)을 구분하는 경우가 거의 없다. 본 연구는 독해 교육 분야의 연구 성과를 바탕으로, 유치원부터 8학년 학생들을 대상으로 한 서사 이해 능력 향상을 목표로 하는 FairytaleQA 데이터셋을 제안한다. 이 데이터셋은 근거 기반 이론적 프레임워크에 기반해 교육 전문가들에 의해 생성되었으며, 278편의 어린이 친화적인 이야기에서 유도된 10,580개의 명시적 및 암시적 질문을 포함하고 있으며, 서사 요소 또는 관계 유형 7종을 포괄한다. 본 데이터셋은 두 가지 측면에서 높은 가치를 지닌다. 첫째, 기존 QA 모델을 본 데이터셋에 적용하여, 해당 어노테이션이 모델의 세부적인 학습 능력을 평가하는 데 기여함을 확인하였다. 둘째, 본 데이터셋은 교육 분야에서 질의 생성(QG) 작업을 지원한다. 다양한 QG 모델과의 벤치마킹을 통해, FairytaleQA를 기반으로 훈련된 QG 모델이 고품질且 다양성 있는 질문을 생성할 수 있음을 입증하였다.