HyperAIHyperAI

Command Palette

Search for a command to run...

DROP: Eine Leseverständnis-Benchmark, die diskretes Schließen über Absätze erfordert

Dheeru Dua; Yizhong Wang; Pradeep Dasigi; Gabriel Stanovsky; Sameer Singh; Matt Gardner

Zusammenfassung

Die Leseverständnisforschung hat kürzlich rasche Fortschritte gemacht, wobei Systeme auf den beliebtesten Datensätzen für diese Aufgabe menschliche Leistungen erreichen. Dennoch haben zahlreiche Studien die Fragilität dieser Systeme hervorgehoben und gezeigt, dass noch viel Arbeit zu tun ist. Wir stellen eine neue englische Leseverständnistestsuite vor, DROP (Discrete Reasoning Over Paragraphs), die diskrete Schlussfolgerungen über den Inhalt von Absätzen erfordert. In diesem durch Crowdsourcing erstellten, feindlich konstruierten Benchmark mit 96.000 Fragen muss ein System Verweise in einer Frage auflösen, möglicherweise auf mehrere Eingabepositionen, und diskrete Operationen darauf ausführen (wie Addition, Zählen oder Sortieren). Diese Operationen erfordern ein umfassenderes Verständnis des Inhalts von Absätzen als es bei früheren Datensätzen notwendig war. Wir wenden Methoden aus der neuesten Forschungsliteratur zum Leseverständnis und semantischen Parsing auf diesen Datensatz an und zeigen, dass die besten Systeme nur einen F1-Score von 32,7 % nach unserem verallgemeinerten Genauigkeitsmaß erreichen, während das Leistungsniveau von Experten bei 96,0 % liegt. Darüber hinaus präsentieren wir ein neues Modell, das Methoden des Leseverständnisses mit einfachem numerischem Schließen kombiniert und einen F1-Score von 47,0 % erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DROP: Eine Leseverständnis-Benchmark, die diskretes Schließen über Absätze erfordert | Paper | HyperAI