11일 전

Molweni: 논의 구조를 갖춘 다자 대화 기반 기계 독해 데이터셋

Jiaqi Li, Ming Liu, Min-Yen Kan, Zihao Zheng, Zekun Wang, Wenqiang Lei, Ting Liu, Bing Qin

초록

최근 몇 년간 다자 대화 분야에 대한 연구가 크게 증가하고 있다. 우리는 다자 대화의 담론 구조를 반영한 기계 독해(MRC) 데이터셋인 Molweni를 제시한다. Molweni 데이터셋은 Ubuntu Chat Corpus에서 가져온 샘플을 기반으로 하며, 총 10,000개의 대화와 88,303개의 발화를 포함한다. 이 데이터셋에 대해 30,066개의 질문을 주석화하였으며, 이 중에는 답변 가능한 질문과 불가능한 질문이 모두 포함되어 있다. 특히 Molweni는 다자 대화 전반에 걸쳐 수정된 분절적 담론 표현 이론(Segmented Discourse Representation Theory, SDRT; Asher 등, 2016) 스타일의 담론 종속성 주석을 제공함으로써, 다자 대화의 담론 구문 분석 작업에 활용할 수 있는 대규모(78,245개의 주석화된 담론 관계) 데이터를 기여한다. 실험 결과에 따르면, Molweni는 현재의 MRC 모델들에게 도전적인 데이터셋임을 보여준다. 현재 가장 강력한 SQuAD 2.0 성능을 보이는 BERT-wwm 모델도 Molweni의 질문에 대해 F1 점수 67.7%를 기록하며, SQuAD 2.0 성능 대비 20% 이상의 유의미한 하락을 보였다.