TORQUE: Ein Leseverständnis-Datensatz für zeitliche Ordnungsfragen

Ein entscheidender Aspekt des Lesens besteht darin, die zeitlichen Beziehungen zwischen Ereignissen, die in einem Textabschnitt beschrieben werden, verstehen zu können, selbst wenn diese Beziehungen nicht explizit formuliert sind. Derzeitige Benchmarks für maschinelles Leseverständnis enthalten jedoch praktisch keine Fragen, die zeitliche Phänomene testen. Daher verfügen Systeme, die auf diesen Benchmarks trainiert wurden, über keine Fähigkeit, Fragen wie „Was geschah vor/nach [einem bestimmten Ereignis]?“ zu beantworten. Wir stellen TORQUE vor, einen neuen englischen Benchmark für Leseverständnis, der auf 3.200 Nachrichtenschnipseln mit insgesamt 21.000 von Menschen generierten Fragen basiert, die zeitliche Beziehungen abfragen. Die Ergebnisse zeigen, dass RoBERTa-large auf dem Testset von TORQUE eine Exact-Match-Score von 51 % erreicht, was etwa 30 Prozentpunkte unter der menschlichen Leistung liegt.