Date

il y a 2 ans

Taille

1.92 MB

Organisation

URL du document

arxiv.org

Balises

LLM

Mathématiques

Apprentissage Profond

Reasoning

Benchmarks

ProcessBench est un ensemble de données de référence qui se concentre sur l’identification des erreurs de raisonnement mathématique. Il vise à mesurer la capacité des modèles linguistiques à identifier les étapes incorrectes du raisonnement mathématique. Il a été lancé par l'équipe Qwen du groupe Alibaba en 2024. Les résultats de l'étude associée sont «ProcessBench : identifier les erreurs de processus dans le raisonnement mathématique". Cet ensemble de données contient 3,4 000 exemples de tests, axés sur des problèmes mathématiques de difficulté compétition et Olympiade. Chaque exemple est accompagné d'une solution étape par étape et de marquages d'erreur précis par des experts du domaine. Lors de la construction de cet ensemble de données, l’équipe de recherche a sélectionné des questions provenant de plusieurs sources de données publiques, a utilisé divers modèles de langage open source pour produire des réponses et a finalement fait examiner les données par des experts afin de garantir des normes de qualité élevées.

Exemple de données pour PROCESSBENCH. L'étiquette 2 indique que l'erreur la plus ancienne s'est produite à l'étape 2 (indexée à partir de 0). Pour les cas de test sans erreurs, l’étiquette est -1.

Citation

@article{processbench, titre={ProcessBench : Identification des erreurs de processus dans le raisonnement mathématique}, auteur={ Chujie Zheng et Zhenru Zhang et Beichen Zhang et Runji Lin et Keming Lu et Bowen Yu et Dayiheng Liu et Jingren Zhou et Junyang Lin }, journal={prépublication arXiv arXiv:2412.06559}, année={2024} }

ProcessBench.torrent

Partage 1Téléchargement 0Terminé 162Total des téléchargements 223

ProcessBench/
- README.md
  1.58 KB
- README.txt
  3.15 KB

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Ensemble De Données De Référence FigureBench Pour La Génération d'illustrations Scientifiques

il y a 2 heures

Graphique ChartNet : Compréhension Des Ensembles De Données Multimodaux

il y a 18 jours

Ensemble De Données EAVSD Sur Les Storyboards Vidéo Publicitaires Pour Le Commerce Électronique

il y a 18 jours

Ensemble De Données d'évaluation Comparative Des Agents Intelligents Médicaux chi-bench

il y a 6 jours

Ensemble De Données ViMU Sur La Compréhension Des Métaphores Vidéo

il y a 19 jours

Ensemble De Données d'inférence Visuelle VisCoR-55K

il y a un mois

Ensemble De Données De Référence Multimodal MathNet Pour l'inférence Mathématique

il y a un mois

Ensemble De Données De Référence En Monde Réel Claw-Eval

il y a un mois

Ensemble De Données De Compréhension Du Graphe d'étalonnage Quantique QCalEval

il y a 2 mois

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

il y a un jour

Ensemble De Données d'amélioration De La Netteté Pancolor Par Télédétection À Grande Échelle

il y a 2 mois

Ensemble De Données d'évaluation Des Capacités d'analyse Syntaxique De Documents ParseBench

il y a 2 mois

Ensemble De Données Compressées En Mémoire Contextuelle OpenMementos

il y a 2 mois

Ensemble De Données d'évaluation Des Capacités d'analyse Multimodale d'OmniParsingBench

il y a un jour

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

il y a un jour

Ensemble De Données World Model Bench

il y a 2 mois

Ensemble De Données De Raisonnement Étape Par Étape GPT-5.4

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données

Discuter sur Discord

Date

il y a 2 ans

Taille

1.92 MB

Organisation

URL du document

arxiv.org

Balises

LLM

Mathématiques

Apprentissage Profond

Reasoning

Benchmarks