HyperAIHyperAI
il y a 2 mois

DROP : Un benchmark de compréhension de la lecture nécessitant un raisonnement discret sur des paragraphes

Dheeru Dua; Yizhong Wang; Pradeep Dasigi; Gabriel Stanovsky; Sameer Singh; Matt Gardner
DROP : Un benchmark de compréhension de la lecture nécessitant un raisonnement discret sur des paragraphes
Résumé

La compréhension de la lecture a récemment connu des progrès rapides, avec des systèmes qui égalent les humains sur les jeux de données les plus populaires pour cette tâche. Cependant, un vaste corpus de travaux a mis en lumière la fragilité de ces systèmes, montrant qu'il reste encore beaucoup à faire. Nous présentons une nouvelle référence de compréhension de la lecture en anglais, DROP, qui nécessite un Raisonnement Discret sur le contenu des Paragraphes. Dans ce benchmark composé de 96 000 questions et créé par des contributeurs externes dans un contexte adversarial, un système doit résoudre les références d'une question, peut-être à plusieurs positions d'entrée, et effectuer des opérations discrètes sur celles-ci (telles que l'addition, le comptage ou le tri). Ces opérations exigent une compréhension beaucoup plus complète du contenu des paragraphes que ce qui était nécessaire pour les jeux de données précédents. Nous appliquons des méthodes d'avant-garde issues tant de la littérature sur la compréhension de la lecture que de celle sur l'analyse sémantique à ce jeu de données et montrons que les meilleurs systèmes n'atteignent qu'un score F1 de 32,7 % selon notre métrique d'exactitude généralisée, tandis que la performance humaine d'expert est de 96,0 %. Nous présentons également un nouveau modèle qui combine des méthodes de compréhension de la lecture avec un raisonnement numérique simple pour atteindre un score F1 de 47,0 %.