HyperAIHyperAI

Command Palette

Search for a command to run...

Molweni: Eine Herausforderung für multiparteielle Dialoge basierende maschinelle Leseverstehens-Datensammlung mit diskursiver Struktur

Jiaqi Li Ming Liu Min-Yen Kan Zihao Zheng Zekun Wang Wenqiang Lei Ting Liu Bing Qin

Zusammenfassung

Die Forschung im Bereich der Mehrparteien-Dialoge hat in den letzten Jahren erheblich zugenommen. Wir präsentieren den Molweni-Datensatz, einen maschinellen Leseverständnistest (Machine Reading Comprehension, MRC) mit diskursiver Struktur, der auf Mehrparteien-Dialogen basiert. Die Quellbeispiele des Molweni-Datensatzes stammen aus dem Ubuntu Chat Corpus und umfassen 10.000 Dialoge mit insgesamt 88.303 Äußerungen. Auf diesem Korpus haben wir 30.066 Fragen annotiert, wobei sowohl beantwortbare als auch unbeantwortbare Fragen enthalten sind. Ein besonderer Beitrag von Molweni liegt in der einzigartigen Annotation diskursiver Abhängigkeiten im Stil einer modifizierten Segmentierten Diskursdarstellungstheorie (Segmented Discourse Representation Theory, SDRT; Asher et al., 2016) für alle Mehrparteien-Dialoge. Dadurch wird eine großskalige Datenbasis (78.245 annotierte diskursive Beziehungen) bereitgestellt, die für die Aufgabe der Mehrparteien-Dialog-Diskursanalyse von Bedeutung ist. Unsere Experimente zeigen, dass Molweni eine herausfordernde Aufgabe für derzeitige MRC-Modelle darstellt: BERT-wwm, ein aktuelles und leistungsfähiges Modell für SQuAD 2.0, erreicht auf den Fragen des Molweni-Datensatzes nur einen F1-Score von 67,7 %, was einem signifikanten Rückgang um über 20 Prozentpunkte gegenüber seiner Leistung auf SQuAD 2.0 entspricht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp