HyperAIHyperAI

Command Palette

Search for a command to run...

ReClor : Un Jeu de Données pour la Compréhension de la Lecture Requérant une Raisonnement Logique

Weihaao Yu* Zihang Jiang* Yanfei Dong Jiashi Feng

Résumé

Les modèles de langage pré-entraînés récents ont obtenu des performances remarquables sur la plupart des ensembles de données populaires pour la compréhension de texte. Il est maintenant temps d'introduire des ensembles de données plus complexes pour stimuler le développement de ce domaine vers une compréhension plus approfondie du texte. Dans cet article, nous présentons un nouveau jeu de données de compréhension de lecture nécessitant un raisonnement logique (ReClor), extrait des examens standardisés d'admission aux études supérieures. Comme l'ont suggéré les études précédentes, les ensembles de données annotés par des humains contiennent généralement des biais, qui sont souvent exploités par les modèles pour atteindre une précision élevée sans véritablement comprendre le texte. Afin d'évaluer de manière exhaustive la capacité de raisonnement logique des modèles sur ReClor, nous proposons d'identifier les points de données biaisés et de les séparer dans un ensemble EASY, tandis que le reste constitue l'ensemble HARD. Les résultats empiriques montrent que les modèles d'avant-garde ont une capacité exceptionnelle à capturer les biais présents dans l'ensemble de données, avec une précision élevée sur l'ensemble EASY. Cependant, ils éprouvent des difficultés sur l'ensemble HARD, affichant une performance médiocre proche du hasard, ce qui indique qu'il est nécessaire d'entreprendre davantage de recherches pour améliorer fondamentalement la capacité de raisonnement logique des modèles actuels.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp