vor 2 Monaten

DROP: Eine Leseverständnis-Benchmark, die diskretes Schließen über Absätze erfordert

Dheeru Dua; Yizhong Wang; Pradeep Dasigi; Gabriel Stanovsky; Sameer Singh; Matt Gardner

Abstract

Die Leseverständnisforschung hat kürzlich rasche Fortschritte gemacht, wobei Systeme auf den beliebtesten Datensätzen für diese Aufgabe menschliche Leistungen erreichen. Dennoch haben zahlreiche Studien die Fragilität dieser Systeme hervorgehoben und gezeigt, dass noch viel Arbeit zu tun ist. Wir stellen eine neue englische Leseverständnistestsuite vor, DROP (Discrete Reasoning Over Paragraphs), die diskrete Schlussfolgerungen über den Inhalt von Absätzen erfordert. In diesem durch Crowdsourcing erstellten, feindlich konstruierten Benchmark mit 96.000 Fragen muss ein System Verweise in einer Frage auflösen, möglicherweise auf mehrere Eingabepositionen, und diskrete Operationen darauf ausführen (wie Addition, Zählen oder Sortieren). Diese Operationen erfordern ein umfassenderes Verständnis des Inhalts von Absätzen als es bei früheren Datensätzen notwendig war. Wir wenden Methoden aus der neuesten Forschungsliteratur zum Leseverständnis und semantischen Parsing auf diesen Datensatz an und zeigen, dass die besten Systeme nur einen F1-Score von 32,7 % nach unserem verallgemeinerten Genauigkeitsmaß erreichen, während das Leistungsniveau von Experten bei 96,0 % liegt. Darüber hinaus präsentieren wir ein neues Modell, das Methoden des Leseverständnisses mit einfachem numerischem Schließen kombiniert und einen F1-Score von 47,0 % erzielt.