HyperAI

Ensemble De Données De Référence De Raisonnement Mathématique ProcessBench

ProcessBench est un ensemble de données de référence qui se concentre sur l’identification des erreurs de raisonnement mathématique. Il vise à mesurer la capacité des modèles linguistiques à identifier les étapes incorrectes du raisonnement mathématique. Il a été lancé par l'équipe Qwen du groupe Alibaba en 2024. Les résultats de l'étude associée sont «ProcessBench : identifier les erreurs de processus dans le raisonnement mathématique".

Cet ensemble de données contient 3,4 000 exemples de tests, axés sur des problèmes mathématiques de difficulté compétition et Olympiade. Chaque exemple est accompagné d'une solution étape par étape et de marquages d'erreur précis par des experts du domaine. Lors de la construction de cet ensemble de données, l’équipe de recherche a sélectionné des questions provenant de plusieurs sources de données publiques, a utilisé divers modèles de langage open source pour produire des réponses et a finalement fait examiner les données par des experts afin de garantir des normes de qualité élevées.

Exemple de données pour PROCESSBENCH. L'étiquette 2 indique que l'erreur la plus ancienne s'est produite à l'étape 2 (indexée à partir de 0). Pour les cas de test sans erreurs, l’étiquette est -1.
ProcessBench.torrent
Partage 2Téléchargement 0Terminés 40Téléchargements totaux 39
  • ProcessBench/
    • README.md
      1.58 KB
    • README.txt
      3.15 KB
      • data/
        • ProcessBench.zip
          1.92 MB