Molweni: Eine Herausforderung für multiparteielle Dialoge basierende maschinelle Leseverstehens-Datensammlung mit diskursiver Struktur

Die Forschung im Bereich der Mehrparteien-Dialoge hat in den letzten Jahren erheblich zugenommen. Wir präsentieren den Molweni-Datensatz, einen maschinellen Leseverständnistest (Machine Reading Comprehension, MRC) mit diskursiver Struktur, der auf Mehrparteien-Dialogen basiert. Die Quellbeispiele des Molweni-Datensatzes stammen aus dem Ubuntu Chat Corpus und umfassen 10.000 Dialoge mit insgesamt 88.303 Äußerungen. Auf diesem Korpus haben wir 30.066 Fragen annotiert, wobei sowohl beantwortbare als auch unbeantwortbare Fragen enthalten sind. Ein besonderer Beitrag von Molweni liegt in der einzigartigen Annotation diskursiver Abhängigkeiten im Stil einer modifizierten Segmentierten Diskursdarstellungstheorie (Segmented Discourse Representation Theory, SDRT; Asher et al., 2016) für alle Mehrparteien-Dialoge. Dadurch wird eine großskalige Datenbasis (78.245 annotierte diskursive Beziehungen) bereitgestellt, die für die Aufgabe der Mehrparteien-Dialog-Diskursanalyse von Bedeutung ist. Unsere Experimente zeigen, dass Molweni eine herausfordernde Aufgabe für derzeitige MRC-Modelle darstellt: BERT-wwm, ein aktuelles und leistungsfähiges Modell für SQuAD 2.0, erreicht auf den Fragen des Molweni-Datensatzes nur einen F1-Score von 67,7 %, was einem signifikanten Rückgang um über 20 Prozentpunkte gegenüber seiner Leistung auf SQuAD 2.0 entspricht.