HyperAIHyperAI
il y a 11 jours

GSM-Plus : Une évaluation complète pour mesurer la robustesse des LLM en tant que résolveurs de problèmes mathématiques

Qintong Li, Leyang Cui, Xueliang Zhao, Lingpeng Kong, Wei Bi
GSM-Plus : Une évaluation complète pour mesurer la robustesse des LLM en tant que résolveurs de problèmes mathématiques
Résumé

Les grands modèles linguistiques (LLM) ont atteint des performances remarquables sur diverses évaluations de raisonnement mathématique. Toutefois, des débats croissants émergent quant à savoir si ces modèles comprennent véritablement et appliquent effectivement des connaissances mathématiques, ou s’ils se contentent de tirer parti de raccourcis pour le raisonnement mathématique. Une preuve essentielle et fréquemment observée est que, lorsque les questions mathématiques sont légèrement modifiées, les LLM peuvent produire des réponses incorrectes. Cela nous a motivés à évaluer la robustesse de la capacité de raisonnement mathématique des LLM en testant un large éventail de variations de questions. Nous introduisons le jeu de données adversarial Grade School Math (GSM-Plus), une extension de GSM8K enrichie par diverses perturbations mathématiques. Nos expériences menées sur 25 LLM et 4 techniques de promptage montrent que, bien que les LLM présentent des niveaux variés de compétences en raisonnement mathématique, leurs performances restent loin d’être robustes. En particulier, même pour des problèmes déjà résolus dans GSM8K, les LLM peuvent commettre des erreurs lorsqu’un nouvel énoncé est ajouté ou que la cible de la question est modifiée. Nous explorons également la possibilité d’obtenir une meilleure robustesse en combinant des méthodes de promptage existantes, en testant une approche itérative qui génère et vérifie chaque pensée intermédiaire en fonction de son objectif de raisonnement et du résultat du calcul.

GSM-Plus : Une évaluation complète pour mesurer la robustesse des LLM en tant que résolveurs de problèmes mathématiques | Articles de recherche récents | HyperAI