HyperAIHyperAI
vor 2 Monaten

OpenMathInstruct-2: Beschleunigung der KI für Mathematik durch große Mengen offener Anweisungsdaten

Shubham Toshniwal; Wei Du; Ivan Moshkov; Branislav Kisacanin; Alexan Ayrapetyan; Igor Gitman
OpenMathInstruct-2: Beschleunigung der KI für Mathematik durch große Mengen offener Anweisungsdaten
Abstract

Mathematisches Denken bleibt eine entscheidende Herausforderung bei der Entwicklung großer Sprachmodelle (LLMs) und weckt großes Interesse. Allerdings ist der Großteil des neuesten Fortschritts im Bereich mathematischen Denkens mit LLMs aufgrund mangelnder Zugang zu Trainingsdaten \emph{geschlossen} geworden. Dieser Mangels an Datenzugang begrenzt die Möglichkeiten von Forschern, den Einfluss verschiedener Entscheidungen zur Synthese und Nutzung der Daten zu verstehen. Mit dem Ziel, einen hochwertigen Feinabstimmungs- (SFT-) Datensatz für mathematisches Denken zu erstellen, führen wir sorgfältige Abstraktionsversuche zur Datensynthese durch, indem wir die kürzlich veröffentlichte Modellfamilie \texttt{Llama3.1} nutzen. Unsere Experimente zeigen, dass: (a) das Lösungsformat von Bedeutung ist, wobei übermäßig ausführliche Lösungen sich negativ auf die SFT-Leistung auswirken, (b) von einem starken Lehrer generierte Daten gleich großen Daten übertreffen, die von einem schwachen Schülermodell erzeugt wurden, (c) SFT gegenüber schlechten Lösungen robust ist und ungenaue Datenfilterung zulässt, und (d) Fragevielfalt entscheidend ist, um Skalierungsgewinne in den Daten zu erzielen. Auf Basis dieser Erkenntnisse erstellen wir den OpenMathInstruct-2-Datensatz, der 14 Millionen Frage-Lösungspaare ((\approx) 600.000 eindeutige Fragen) umfasst und damit fast achtmal größer als der bisher größte offene Mathematik-Datensatz ist. Die Feinabstimmung des \texttt{Llama-3.1-8B-Base}-Modells mit OpenMathInstruct-2 übertreibt das \texttt{Llama3.1-8B-Instruct}-Modell auf MATH um 15,9 Prozentpunkte absolut (51,9\% (\rightarrow) 67,8\%). Schließlich, um offene Entwicklungsanstrengungen zu beschleunigen, veröffentlichen wir den Code, die feinabgestimmten Modelle und den OpenMathInstruct-2-Datensatz unter einer kommerziell freizügigen Lizenz.Anmerkungen:- "Feinabstimmung" wird oft als "Fine-Tuning" oder "Feinabstimmung" verwendet.- "Abstraktionsversuche" könnte auch als "Ablationsstudien" übersetzt werden.- "Übertreffen" wurde hier verwendet anstatt "outperform", um eine formelle Übersetzung zu gewährleisten.- "Übertreibt" wurde hier verwendet anstatt "outperforms", um eine formelle Übersetzung zu gewährleisten.- Die technischen Begriffe wie "LLM", "SFT", und Modellnamen wurden beibehalten und nicht übersetzt.