OpenMathInstruct-2 : Accélération de l'IA pour les mathématiques grâce à de vastes données d'instruction open-source

Le raisonnement mathématique reste un défi critique dans le développement des grands modèles de langage (LLMs) et suscite un intérêt considérable. Cependant, la plupart des progrès de pointe en matière de raisonnement mathématique avec les LLMs sont devenus \emph{fermés} en raison du manque d'accès aux données d'entraînement. Ce manque d'accès aux données limite la capacité des chercheurs à comprendre l'impact des différents choix pour synthétiser et utiliser ces données. Dans le but de créer un ensemble de données de haute qualité pour le finetuning (SFT) en raisonnement mathématique, nous avons mené des expériences d'ablation soigneuses sur la synthèse des données en utilisant la famille récemment publiée de modèles \texttt{Llama3.1}. Nos expériences montrent que : (a) le format des solutions est important, les solutions excessivement verbales étant préjudiciables à la performance du SFT, (b) les données générées par un modèle enseignant performant surpassent celles générées par un modèle étudiant faible de taille équivalente, (c) le SFT est robuste face aux solutions de mauvaise qualité, permettant une filtration imparfaite des données, et (d) la diversité des questions est cruciale pour obtenir des gains liés à l'échelle des données. Sur la base de ces observations, nous avons créé le dataset OpenMathInstruct-2, qui comprend 14 millions de paires question-solution ($\approx$ 600 000 questions uniques), ce qui le rend presque huit fois plus grand que le précédent dataset open-source le plus important en raisonnement mathématique. Le finetuning du \texttt{Llama-3.1-8B-Base} à l'aide d'OpenMathInstruct-2 surpasse \texttt{Llama3.1-8B-Instruct} sur MATH d'un taux absolu de 15,9\% (51,9\% $\rightarrow$ 67,8\%). Enfin, afin d'accélérer les efforts open-source, nous mettons à disposition sous une licence commercialement permissive le code, les modèles finetunés et le dataset OpenMathInstruct-2.