```latex @article{yuan2024implicitprm, title={Free Process Rewards without Process Labels}, author={Lifan Yuan and Wendi Li and Huayu Chen and Ganqu Cui and Ning Ding and Kaiyan Zhang and Bowen Zhou and Zhiyuan Liu and Hao Peng}, journal={arXiv preprint arXiv:2412.01981}, year={2024} }

Date

il y a un an

Taille

1.16 GB

URL du document

curvy-check-498.notion.site

Balises

LLM

Mathématiques

Langue

Apprentissage Par Renforcement

Entraînement Du Modèle

Eurus-2-RL-Data est un ensemble de données de haute qualité spécifiquement destiné à la formation par renforcement, principalement utilisé pour résoudre des problèmes mathématiques et de programmation. Le blog concerné est "Renforcement des processus par des récompenses implicites". Les problèmes mathématiques de cet ensemble de données sont en partie dérivés de NuminaMath-CoT, couvrant un large éventail de sujets allant des mathématiques du lycée chinois à l'Olympiade internationale de mathématiques. Les questions de programmation proviennent de plusieurs plateformes, notamment APPS, CodeContests, TACO et Codeforces, ciblant principalement les questions de niveau compétition de programmation. Afin de garantir la qualité des données, les données Eurus-2-RL ont été rigoureusement nettoyées et filtrées. Les questions mathématiques ont été examinées à l’aide de modèles de raisonnement avancés (par exemple, Qwen-QwQ) pour éliminer les questions insolubles, incompatibles ou mal répondues, et les questions à choix multiples ont été converties en questions ouvertes. Les questions de programmation suppriment principalement le contenu répétitif. Après ces traitements,L'ensemble de données contient finalement environ 455 000 problèmes mathématiques et 27 000 problèmes de programmation. Les principaux domaines d'application d'Eurus-2-RL-Data sont l'apprentissage par renforcement et les compétitions de programmation. Il fournit une plate-forme de formation efficace pour le modèle, l'aidant à apprendre plus en profondeur et à optimiser la résolution de problèmes complexes.

Citation

```latex
@article{yuan2024implicitprm,
title={Free Process Rewards without Process Labels},
author={Lifan Yuan and Wendi Li and Huayu Chen and Ganqu Cui and Ning Ding and Kaiyan Zhang and Bowen Zhou and Zhiyuan Liu and Hao Peng},
journal={arXiv preprint arXiv:2412.01981},
year={2024}
}

Eurus-2-RL-Data.torrent

Partage 0Téléchargement 3Terminé 174Total des téléchargements 236

Eurus-2-RL-Data/
- README.md
  1.82 KB
- README.txt
  3.64 KB

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Ensemble De Données De Trajectoires d'interaction d'agents Intelligents AgentTrove

il y a un mois

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

il y a un mois

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

il y a un jour

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

il y a un jour

Ensemble De Données De Raisonnement Étape Par Étape GPT-5.4

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données

Discuter sur Discord

Date

il y a un an

Taille

1.16 GB

URL du document

curvy-check-498.notion.site

Balises

LLM

Mathématiques

Langue

Apprentissage Par Renforcement

Entraînement Du Modèle

Citation

```latex
@article{yuan2024implicitprm,
title={Free Process Rewards without Process Labels},
author={Lifan Yuan and Wendi Li and Huayu Chen and Ganqu Cui and Ning Ding and Kaiyan Zhang and Bowen Zhou and Zhiyuan Liu and Hao Peng},
journal={arXiv preprint arXiv:2412.01981},
year={2024}
}

Eurus-2-RL-Data.torrent

Partage 0Téléchargement 3Terminé 174Total des téléchargements 236

Eurus-2-RL-Data/
- README.md
  1.82 KB
- README.txt
  3.64 KB

undefined

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

il y a 4 heures

Base De Données De Connaissances TACK Targeted Chimera

il y a 15 jours

Ensemble De Données Parallèles De Traduction Multilingue SMOL

il y a 19 jours

Ensemble De Données De Trajectoires d'interaction d'agents Intelligents AgentTrove

il y a un mois

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

il y a un mois

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

il y a un jour

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

il y a un jour

Ensemble De Données De Raisonnement Étape Par Étape GPT-5.4

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Ensemble De Données d'entraînement Aux Problèmes De Programmation Mathématique Eurus-2-RL-Data

Citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données d'entraînement Aux Problèmes De Programmation Mathématique Eurus-2-RL-Data

Citation

undefined

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Base De Données De Connaissances TACK Targeted Chimera

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données De Trajectoires d'interaction d'agents Intelligents AgentTrove

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

Ensemble De Données De Raisonnement Étape Par Étape GPT-5.4

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données d'entraînement Aux Problèmes De Programmation Mathématique Eurus-2-RL-Data

Citation

undefined

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Base De Données De Connaissances TACK Targeted Chimera

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données De Trajectoires d'interaction d'agents Intelligents AgentTrove

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

Ensemble De Données De Raisonnement Étape Par Étape GPT-5.4

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Base De Données De Connaissances TACK Targeted Chimera

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données De Trajectoires d'interaction d'agents Intelligents AgentTrove

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

Ensemble De Données De Raisonnement Étape Par Étape GPT-5.4

undefined

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Base De Données De Connaissances TACK Targeted Chimera

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données De Trajectoires d'interaction d'agents Intelligents AgentTrove

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

Ensemble De Données De Raisonnement Étape Par Étape GPT-5.4