HyperAI

Eurus-2-RL-Data Trainingsdatensatz Für Mathematische Programmierprobleme

Datum

vor 4 Monaten

Größe

1.16 GB

Veröffentlichungs-URL

huggingface.co

Eurus-2-RL-Data ist ein hochwertiger Datensatz speziell für das Training des bestärkenden Lernens, der hauptsächlich zur Lösung mathematischer und Programmierprobleme verwendet wird. Der entsprechende Blog ist „Prozessverstärkung durch implizite Belohnungen".

Die Mathematikaufgaben in diesem Datensatz stammen teilweise aus NuminaMath-CoT und decken ein breites Themenspektrum ab, von der chinesischen Mathematik an weiterführenden Schulen bis zur Internationalen Mathematik-Olympiade. Programmierfragen kommen von mehreren Plattformen, darunter APPS, CodeContests, TACO und Codeforces, und zielen hauptsächlich auf Fragen auf Programmierwettbewerbsniveau ab. Um die Qualität der Daten sicherzustellen, wurden die Eurus-2-RL-Daten gründlich bereinigt und gefiltert. Mathematische Fragen wurden mithilfe erweiterter Denkmodelle (z. B. Qwen-QwQ) gefiltert, um unlösbare, nicht passende oder falsch beantwortete Fragen zu entfernen, und Multiple-Choice-Fragen wurden in offene Fragen umgewandelt. Programmierfragen entfernen hauptsächlich sich wiederholende Inhalte. Nach diesen BehandlungenDer Datensatz enthält letztendlich etwa 455.000 Mathematikprobleme und 27.000 Programmierprobleme. Die Hauptanwendungsgebiete von Eurus-2-RL-Data sind Reinforcement Learning und Programmierwettbewerbe. Es bietet eine effektive Trainingsplattform für das Modell und hilft ihm, tiefer zu lernen und bei der Lösung komplexer Probleme zu optimieren.

Eurus-2-RL-Data.torrent
Seeding 0Herunterladen 1Abgeschlossen 54Gesamtdownloads 34
  • Eurus-2-RL-Data/
    • README.md
      1.82 KB
    • README.txt
      3.64 KB
      • data/
        • Eurus-2-RL-Data.zip
          1.16 GB