vor 13 Tagen

OpenMathInstruct-1: Ein Dataset zur Anweisungstuning für Mathematik mit 1,8 Millionen Einträgen

Shubham Toshniwal, Ivan Moshkov, Sean Narenthiran, Daria Gitman, Fei Jia, Igor Gitman

Abstract

Neuere Arbeiten haben das enorme Potenzial synthetisch generierter Datensätze für das Training großer Sprachmodelle (Large Language Models, LLMs) hervorgehoben, insbesondere zur Erwerbung spezialisierter Fähigkeiten. Aktuelle großskalige Datensätze für mathematische Anweisungstuning wie MetaMathQA (Yu et al., 2024) und MAmmoTH (Yue et al., 2024) werden auf Basis von Ausgaben geschlossener, kommerziell eingeschränkter LLMs erstellt. Ein zentraler Grund für die eingeschränkte Nutzung offener LLMs in solchen Datengenerierungspipelines war bisher die erhebliche Lücke zwischen den mathematischen Fähigkeiten der besten geschlossenen LLMs, wie beispielsweise GPT-4, und denen der besten offenen LLMs. Aufbauend auf den jüngsten Fortschritten bei offenen LLMs, unserer neuartigen Prompting-Strategie sowie einer gewissen Brute-Force-Skalierung erstellen wir OpenMathInstruct-1, einen mathematischen Anweisungstuning-Datensatz mit 1,8 Millionen Problem-Lösungs-Paaren. Der Datensatz wird durch die Synthese von Code-Interpreter-Lösungen für die beiden etablierten mathematischen Schlussfolgerungsbewertungen GSM8K und MATH mithilfe des kürzlich veröffentlichten und unter einer kommerziell permissiven Lizenz stehenden Mixtral-Modells generiert. Unser bestes Modell, OpenMath-CodeLlama-70B, das auf einer Teilmenge von OpenMathInstruct-1 trainiert wurde, erreicht eine Genauigkeit von 84,6 % auf GSM8K und 50,7 % auf MATH – Werte, die mit denen der besten gpt-abgeleiteten Modelle konkurrieren. Wir veröffentlichen unseren Code, unsere Modelle und den OpenMathInstruct-1-Datensatz unter einer kommerziell permissiven Lizenz.