HyperAI

Ensemble De Données De Raisonnement De Programmation OpenCodeReasoning

Aide au téléchargement

OpenCodeReasoning est un ensemble de données synthétiques de raisonnement de programmation à grande échelle publié par NVIDIA en 2025. Il vise à fournir des données de formation de raisonnement de programmation de haute qualité pour les grands modèles de langage (LLM) et à promouvoir l'amélioration des capacités de génération de code et de raisonnement logique. Les résultats pertinents de l'étude sont les suivants :OpenCodeReasoning : faire progresser la distillation des données pour un codage compétitif".

L'ensemble de données contient 735 255 échantillons, couvrant 28 319 questions de programmation uniques, et constitue l'un des plus grands ensembles de données de programmation de raisonnement actuellement disponibles.

Source des données :

  • Il intègre des questions provenant de 11 plates-formes de programmation grand public, notamment CodeForces, CodeChef, LeetCode et des ensembles de données publics tels que TACO, APPS et CodeContests.
  • La réponse du code est générée par le modèle R1 développé par NVIDIA pour garantir la cohérence des données et la standardisation de la logique de raisonnement.