Une étude empirique de la limite de capacité des données dans le raisonnement mathématique des LLM

Les grands modèles linguistiques (LLM) font preuve de capacités émergentes dans les tâches de raisonnement mathématique, et l’attention croissante se porte sur l’amélioration des capacités des LLM open-source par une mise au point supervisée (SFT). Dans cet article, nous visons à explorer une stratégie générale de construction de données supervisées afin d’optimiser et d’étendre la capacité de raisonnement mathématique. Premièrement, nous déterminons la limite de capacité de l’augmentation des chemins de raisonnement en identifiant l’ensemble minimal optimal de ces chemins. Deuxièmement, nous démontrons que différentes capacités du modèle peuvent être cumulativement améliorées grâce à un mélange d’ensembles minimaux optimaux correspondant à différents types de données, tandis que nos modèles MMOS atteignent des performances SOTA sur une série de modèles de base, avec des coûts de construction bien inférieurs. En outre, nous soulignons que GSM-HARD n’est pas véritablement difficile, et que les LLM actuels ne manquent plus de robustesse numérique. Enfin, nous proposons un générateur automatique de problèmes pour des tests de robustesse et des applications éducatives. Notre code et nos données sont disponibles publiquement à l’adresse suivante : https://github.com/cyzhh/MMOS.