OpenCodeReasoning-Programmier-Reasoning-Datensatz
Datum
vor 19 Tagen
Veröffentlichungs-URL
Kategorien
OpenCodeReasoning ist ein synthetischer Datensatz für Programmierschlussfolgerungen im großen Maßstab, der 2025 von NVIDIA veröffentlicht wurde. Ziel ist es, qualitativ hochwertige Trainingsdaten für Programmierschlussfolgerungen für große Sprachmodelle (LLMs) bereitzustellen und die Verbesserung der Codegenerierung und der logischen Schlussfolgerungsfähigkeiten zu fördern. Die relevanten Ergebnisse der Studie sind:OpenCodeReasoning: Fortschrittliche Datendestillation für wettbewerbsfähiges Programmieren".
Der Datensatz enthält 735.255 Beispiele, die 28.319 einzigartige Programmierfragen abdecken, und ist einer der größten derzeit verfügbaren Datensätze zum Thema logisches Denken.
Datenquelle:
- Es integriert Fragen von 11 gängigen Programmierplattformen, darunter CodeForces, CodeChef, LeetCode und öffentliche Datensätze wie TACO, APPS und CodeContests.
- Die Codeantwort wird vom selbst entwickelten Modell R1 von NVIDIA generiert, um Datenkonsistenz und Standardisierung der Argumentationslogik sicherzustellen.