HyperAI

OpenMathInstruct-2-Datensatz Zur Optimierung Mathematischer Anweisungen

OpenMathInstruct-2 ist ein umfangreicher Open-Source-Datensatz mit Mathematikanweisungen, der 2024 von NVIDIA veröffentlicht wurde und den Fortschritt der künstlichen Intelligenz in der Mathematik beschleunigen soll. Die entsprechenden Ergebnisse der Studie sind „OpenMathInstruct-2: Beschleunigung der KI für Mathematik mit umfangreichen Open-Source-Anweisungsdaten". Der Datensatz enthält 14 Millionen Frage-Antwort-Paare (ungefähr 600.000 einzigartige Fragen) und ist damit fast achtmal größer als der bisher größte Datensatz seiner Art. Durch die Feinabstimmung des Llama-3.1-8B-Base-Modells mit OpenMathInstruct-2 wird seine Leistung im MATH-Datensatz gegenüber Llama3.1-8B-Instruct um 15,9% verbessert (von 51,9% auf 67,8%).

Der OpenMathInstruct-2-Datensatz enthält die folgenden Felder:

  • Problem: Originalprobleme, entweder aus den GSM8K- oder MATH-Trainingssätzen oder aus diesen Trainingssätzen erweiterte Probleme.
  • generierte_Lösung: Die synthetisch erzeugte Lösung.
  • erwartete_Antwort: Bei Fragen im Trainingssatz ist dies die tatsächliche Referenzantwort im Datensatz. Bei erweiterten Fragen ist dies die durch Mehrheitsbeschluss erzielte Antwort.
  • Problemquelle: Zeigt an, dass das Problem direkt aus GSM8K oder MATH stammt oder eine erweiterte Version ist, die aus einem der Datensätze abgeleitet wurde.
Beispiel für die Datensatzstruktur

OpenMathInstruct-2.torrent
Seeding 2Herunterladen 1Abgeschlossen 62Gesamtdownloads 43
  • OpenMathInstruct-2/
    • README.md
      1.85 KB
    • README.txt
      3.7 KB
      • data/
        • OpenMathInstruct-2.zip
          10.23 GB