HyperAIHyperAI

Command Palette

Search for a command to run...

ReClor: Ein Leseverständnis-Datensatz, der logisches Denken erfordert

Weihaao Yu* Zihang Jiang* Yanfei Dong Jiashi Feng

Zusammenfassung

Kürzlich entwickelte leistungsstarke vortrainierte Sprachmodelle haben auf den meisten gängigen Datensätzen für die Textverständnisprüfung bemerkenswerte Leistungen erzielt. Es ist an der Zeit, herausforderndere Datensätze einzuführen, um die Entwicklung in diesem Bereich in Richtung einer umfassenderen logischen Schlussfolgerung aus Texten zu fördern. In dieser Arbeit stellen wir einen neuen Datensatz für Textverständnis vor, der logisches Denken erfordert (ReClor), der aus standardisierten Aufnahmeprüfungen für Graduiertenschulen extrahiert wurde. Wie frühere Studien nahelegen, enthalten menschlich annotierte Datensätze oft Verzerrungen, die von Modellen genutzt werden, um hohe Genauigkeit zu erreichen, ohne den Text tatsächlich zu verstehen. Um die Fähigkeit der Modelle zur logischen Schlussfolgerung auf ReClor umfassend zu bewerten, schlagen wir vor, verzerrte Datenpunkte zu identifizieren und sie in einen EASY-Datensatz zu trennen, während der Rest als HARD-Datensatz bezeichnet wird. Empirische Ergebnisse zeigen, dass state-of-the-art-Modelle eine hervorragende Fähigkeit besitzen, die Verzerrungen im Datensatz mit hoher Genauigkeit im EASY-Datensatz zu erfassen. Allerdings scheitern sie am HARD-Datensatz und erzielen eine Leistung, die nahe am Zufallsergebnis liegt. Dies deutet darauf hin, dass weitere Forschung notwendig ist, um die logische Schlussfolgerungsfähigkeit der aktuellen Modelle grundlegend zu verbessern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp