HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données De Référence De Raisonnement Mathématique ProcessBench

Date

il y a un an

Taille

1.92 MB

Organisation

Groupe Alibaba

URL du document

arxiv.org

ProcessBench est un ensemble de données de référence qui se concentre sur l’identification des erreurs de raisonnement mathématique. Il vise à mesurer la capacité des modèles linguistiques à identifier les étapes incorrectes du raisonnement mathématique. Il a été lancé par l'équipe Qwen du groupe Alibaba en 2024. Les résultats de l'étude associée sont «ProcessBench : identifier les erreurs de processus dans le raisonnement mathématique".

Cet ensemble de données contient 3,4 000 exemples de tests, axés sur des problèmes mathématiques de difficulté compétition et Olympiade. Chaque exemple est accompagné d'une solution étape par étape et de marquages d'erreur précis par des experts du domaine. Lors de la construction de cet ensemble de données, l’équipe de recherche a sélectionné des questions provenant de plusieurs sources de données publiques, a utilisé divers modèles de langage open source pour produire des réponses et a finalement fait examiner les données par des experts afin de garantir des normes de qualité élevées.

Exemple de données pour PROCESSBENCH. L'étiquette 2 indique que l'erreur la plus ancienne s'est produite à l'étape 2 (indexée à partir de 0). Pour les cas de test sans erreurs, l’étiquette est -1.
ProcessBench.torrent
Seeding 1Téléchargement 0Terminé 114Total Downloads 192
  • ProcessBench/
    • README.md
      1.58 KB
    • README.txt
      3.15 KB
      • data/
        • ProcessBench.zip
          1.92 MB

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp