Eine qualitative Vergleichsanalyse von CoQA, SQuAD 2.0 und QuAC

Wir vergleichen drei neue Datensätze für die Fragebeantwortung: SQuAD 2.0, QuAC und CoQA, hinsichtlich mehrerer ihrer neuen Merkmale: (1) unbeantwortbare Fragen, (2) mehrstufige Interaktionen und (3) abstraktive Antworten. Wir zeigen, dass die Datensätze die ersten beiden Aspekte ergänzend abdecken, aber den dritten Aspekt nur schwach. Aufgrund der strukturellen Ähnlichkeit der Datensätze kann ein einzelnes extraktives Modell leicht an jeden der Datensätze angepasst werden, und wir demonstrieren verbesserte Baseline-Ergebnisse sowohl für SQuAD 2.0 als auch für CoQA. Trotz dieser Ähnlichkeit sind Modelle, die auf einem Datensatz trainiert wurden, auf anderen Datensätzen ineffektiv, jedoch finden wir durch Vortrainierung moderate Leistungsverbesserungen. Um eine gegenseitige Evaluierung zu fördern, veröffentlichen wir Code zur Konvertierung zwischen den Datensätzen unter https://github.com/my89/co-squac .