HyperAIHyperAI
il y a 11 jours

Molweni : Un jeu de données de compréhension de lecture par machine basé sur des dialogues multipersonnels avec une structure discursive

Jiaqi Li, Ming Liu, Min-Yen Kan, Zihao Zheng, Zekun Wang, Wenqiang Lei, Ting Liu, Bing Qin
Molweni : Un jeu de données de compréhension de lecture par machine basé sur des dialogues multipersonnels avec une structure discursive
Résumé

Les recherches dans le domaine des dialogues multipartites ont connu une croissance considérable au cours des dernières années. Nous présentons le jeu de données Molweni, un ensemble de données pour la compréhension automatique du texte (MRC) structuré en discours, construit à partir de dialogues multipartites. Les échantillons de Molweni proviennent du Ubuntu Chat Corpus, incluant 10 000 dialogues rassemblant 88 303 énoncés. Nous avons annoté 30 066 questions sur ce corpus, comprenant à la fois des questions répondables et non répondables. Molweni apporte également une contribution originale par la mise en place d’annotations de dépendances discursives, selon une version modifiée de la théorie des représentations discursives segmentées (SDRT ; Asher et al., 2016), pour l’ensemble de ses dialogues multipartites, fournissant ainsi un ensemble de données à grande échelle (78 245 relations discursives annotées) pour le traitement automatique de la structure discursive dans les dialogues multipartites. Nos expérimentations montrent que Molweni constitue un défi important pour les modèles actuels de MRC : BERT-wwm, un modèle performant actuel sur SQuAD 2.0, n’atteint qu’un score F1 de 67,7 % sur les questions de Molweni, soit une baisse significative de plus de 20 % par rapport à ses performances sur SQuAD 2.0.

Molweni : Un jeu de données de compréhension de lecture par machine basé sur des dialogues multipersonnels avec une structure discursive | Articles de recherche récents | HyperAI