13 天前
Molweni:一个基于多轮对话且具有话语结构的机器阅读理解数据集
Jiaqi Li, Ming Liu, Min-Yen Kan, Zihao Zheng, Zekun Wang, Wenqiang Lei, Ting Liu, Bing Qin

摘要
近年来,多方对话(multiparty dialog)领域的研究取得了显著进展。本文提出了Molweni数据集,这是一个基于多方对话构建的机器阅读理解(MRC)数据集,其核心特征在于具备显式的语篇结构。Molweni的数据源取自Ubuntu聊天语料库(Ubuntu Chat Corpus),包含10,000个对话,共计88,303条话语。我们在该语料库上标注了30,066个问题,涵盖可回答与不可回答两类问题。此外,Molweni在语篇分析方面具有独特贡献:针对所有多方对话,采用改进的分段语篇表示理论(Segmented Discourse Representation Theory, SDRT;Asher et al., 2016)风格,标注了语篇依赖关系,共包含78,245条已标注的语篇关系,为多方对话的语篇解析任务提供了大规模标注数据支持。我们的实验表明,Molweni对当前主流的MRC模型构成显著挑战:即便是在SQuAD 2.0任务中表现优异的BERT-wwm模型,在Molweni数据集上的F1得分仅为67.7%,相较于其在SQuAD 2.0上的表现下降超过20个百分点,差异具有统计显著性。这一结果凸显了Molweni在复杂语境理解、多轮交互推理和语篇连贯性建模方面的高难度,为未来对话理解研究提供了重要基准。