HyperAIHyperAI
il y a 11 jours

MuggleMath : Évaluation de l'impact de l'augmentation des requêtes et des réponses sur le raisonnement mathématique

Chengpeng Li, Zheng Yuan, Hongyi Yuan, Guanting Dong, Keming Lu, Jiancan Wu, Chuanqi Tan, Xiang Wang, Chang Zhou
MuggleMath : Évaluation de l'impact de l'augmentation des requêtes et des réponses sur le raisonnement mathématique
Résumé

En raison du raisonnement mathématique effectué par les grands modèles linguistiques (LLM), l’augmentation de données par évolution des requêtes et parcours de raisonnement diversifiés s’est avérée empiriquement efficace, réduisant profondément l’écart entre les LLM open-source et les modèles propriétaires de pointe. Dans cet article, nous menons une investigation sur cette stratégie d’augmentation de données dans le raisonnement mathématique, avec pour objectif de répondre aux questions suivantes : (1) Quelles stratégies d’augmentation de données sont les plus efficaces ? (2) Quelle est la relation d’échelle entre la quantité de données augmentées et la performance du modèle ? (3) L’augmentation de données peut-elle stimuler la généralisation à des tâches de raisonnement mathématique hors domaine ? À cette fin, nous avons créé deux nouveaux jeux de données, AugGSM8K et AugMATH, en complexifiant et diversifiant les requêtes, tout en échantillonnant plusieurs parcours de raisonnement à partir de GSM8K et MATH. En fine-tuning des modèles LLaMA sur ces jeux de données augmentés, nous avons obtenu une série de LLM appelés MuggleMath, qui atteignent de nouveaux états de l’art sur GSM8K et MATH. Une relation log-linéaire est observée entre la performance de MuggleMath et la quantité de données augmentées sur GSM8K, tandis qu’une relation log-linéaire segmentée est identifiée sur MATH. Nous constatons également une faible capacité de généralisation hors domaine, notamment de AugGSM8K vers MATH et de AugMATH vers GSM8K, ce qui suggère qu’une augmentation de requêtes couvrant un éventail plus large de sujets est plus favorable à la généralisation. Nous mettons à disposition nos codes ainsi que les données augmentées à l’adresse suivante : https://github.com/OFA-Sys/gsm8k-ScRel.

MuggleMath : Évaluation de l'impact de l'augmentation des requêtes et des réponses sur le raisonnement mathématique | Articles de recherche récents | HyperAI