Command Palette
Search for a command to run...
OpenMathInstruct-2-Datensatz Zur Optimierung Mathematischer Anweisungen
Datum
Größe
Paper-URL
OpenMathInstruct-2 ist ein umfangreicher Open-Source-Datensatz mit Mathematikanweisungen, der 2024 von NVIDIA veröffentlicht wurde und den Fortschritt der künstlichen Intelligenz in der Mathematik beschleunigen soll. Die entsprechenden Ergebnisse der Studie sind „OpenMathInstruct-2: Beschleunigung der KI für Mathematik mit umfangreichen Open-Source-Anweisungsdaten". Der Datensatz enthält 14 Millionen Frage-Antwort-Paare (ungefähr 600.000 einzigartige Fragen) und ist damit fast achtmal größer als der bisher größte Datensatz seiner Art. Durch die Feinabstimmung des Llama-3.1-8B-Base-Modells mit OpenMathInstruct-2 wird seine Leistung im MATH-Datensatz gegenüber Llama3.1-8B-Instruct um 15,9% verbessert (von 51,9% auf 67,8%).
Der OpenMathInstruct-2-Datensatz enthält die folgenden Felder:
- Problem: Originalprobleme, entweder aus den GSM8K- oder MATH-Trainingssätzen oder aus diesen Trainingssätzen erweiterte Probleme.
- generierte_Lösung: Die synthetisch erzeugte Lösung.
- erwartete_Antwort: Bei Fragen im Trainingssatz ist dies die tatsächliche Referenzantwort im Datensatz. Bei erweiterten Fragen ist dies die durch Mehrheitsbeschluss erzielte Antwort.
- Problemquelle: Zeigt an, dass das Problem direkt aus GSM8K oder MATH stammt oder eine erweiterte Version ist, die aus einem der Datensätze abgeleitet wurde.

KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.