OpenMathInstruct-2-Datensatz Zur Optimierung Mathematischer Anweisungen
Datum
Größe
Veröffentlichungs-URL
OpenMathInstruct-2 ist ein umfangreicher Open-Source-Datensatz mit Mathematikanweisungen, der 2024 von NVIDIA veröffentlicht wurde und den Fortschritt der künstlichen Intelligenz in der Mathematik beschleunigen soll. Die entsprechenden Ergebnisse der Studie sind „OpenMathInstruct-2: Beschleunigung der KI für Mathematik mit umfangreichen Open-Source-Anweisungsdaten". Der Datensatz enthält 14 Millionen Frage-Antwort-Paare (ungefähr 600.000 einzigartige Fragen) und ist damit fast achtmal größer als der bisher größte Datensatz seiner Art. Durch die Feinabstimmung des Llama-3.1-8B-Base-Modells mit OpenMathInstruct-2 wird seine Leistung im MATH-Datensatz gegenüber Llama3.1-8B-Instruct um 15,9% verbessert (von 51,9% auf 67,8%).
Der OpenMathInstruct-2-Datensatz enthält die folgenden Felder:
- Problem: Originalprobleme, entweder aus den GSM8K- oder MATH-Trainingssätzen oder aus diesen Trainingssätzen erweiterte Probleme.
- generierte_Lösung: Die synthetisch erzeugte Lösung.
- erwartete_Antwort: Bei Fragen im Trainingssatz ist dies die tatsächliche Referenzantwort im Datensatz. Bei erweiterten Fragen ist dies die durch Mehrheitsbeschluss erzielte Antwort.
- Problemquelle: Zeigt an, dass das Problem direkt aus GSM8K oder MATH stammt oder eine erweiterte Version ist, die aus einem der Datensätze abgeleitet wurde.
