11日前

Molweni:会話構造を有するマルチパーティーダイアログベースの機械読解データセット

Jiaqi Li, Ming Liu, Min-Yen Kan, Zihao Zheng, Zekun Wang, Wenqiang Lei, Ting Liu, Bing Qin
Molweni:会話構造を有するマルチパーティーダイアログベースの機械読解データセット
要約

近年、マルチパーティ対話に関する研究は著しく進展している。本研究では、マルチパーティ対話の対話構造を反映した機械読解(MRC)データセット「Molweni」を提示する。MolweniのデータソースはUbuntuチャットコーパスに由来し、10,000件の対話(合計88,303発話)を含む。このコーパス上に、回答可能および回答不能な質問を含む30,066件の質問をアノテーションした。さらに、Molweniは、すべてのマルチパーティ対話に対して、修正されたセグメント化対話表現理論(SDRT;Asherら、2016)に基づいた対話依存関係アノテーションを提供しており、マルチパーティ対話における対話構造解析というタスクに向けた大規模なデータ(78,245件のアノテーション済み対話関係)を提供している点で独自性を持つ。実験の結果、Molweniは現在のMRCモデルにとって非常に挑戦的なデータセットであることが示された。SQuAD 2.0で優れた性能を発揮する最新のBERT-wwmモデルでも、Molweniの質問に対してはF1スコア67.7%にとどまり、SQuAD 2.0での性能と比較して20%以上の有意な低下が確認された。

Molweni:会話構造を有するマルチパーティーダイアログベースの機械読解データセット | 最新論文 | HyperAI超神経