HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données De Référence De Raisonnement Mathématique ProcessBench

Date

il y a un an

Taille

1.92 MB

Organisation

URL de l'article

arxiv.org

ProcessBench est un ensemble de données de référence qui se concentre sur l’identification des erreurs de raisonnement mathématique. Il vise à mesurer la capacité des modèles linguistiques à identifier les étapes incorrectes du raisonnement mathématique. Il a été lancé par l'équipe Qwen du groupe Alibaba en 2024. Les résultats de l'étude associée sont «ProcessBench : identifier les erreurs de processus dans le raisonnement mathématique".

Cet ensemble de données contient 3,4 000 exemples de tests, axés sur des problèmes mathématiques de difficulté compétition et Olympiade. Chaque exemple est accompagné d'une solution étape par étape et de marquages d'erreur précis par des experts du domaine. Lors de la construction de cet ensemble de données, l’équipe de recherche a sélectionné des questions provenant de plusieurs sources de données publiques, a utilisé divers modèles de langage open source pour produire des réponses et a finalement fait examiner les données par des experts afin de garantir des normes de qualité élevées.

Exemple de données pour PROCESSBENCH. L'étiquette 2 indique que l'erreur la plus ancienne s'est produite à l'étape 2 (indexée à partir de 0). Pour les cas de test sans erreurs, l’étiquette est -1.
ProcessBench.torrent
Partage 1Téléchargement 0Terminés 94Téléchargements totaux 144
  • ProcessBench/
    • README.md
      1.58 KB
    • README.txt
      3.15 KB
      • data/
        • ProcessBench.zip
          1.92 MB

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Ensemble De Données De Référence De Raisonnement Mathématique ProcessBench | Ensembles de données | HyperAI