HyperAIHyperAI

Command Palette

Search for a command to run...

GSM-Plus : Une évaluation complète pour mesurer la robustesse des LLM en tant que résolveurs de problèmes mathématiques

Qintong Li Leyang Cui Xueliang Zhao Lingpeng Kong Wei Bi

Résumé

Les grands modèles linguistiques (LLM) ont atteint des performances remarquables sur diverses évaluations de raisonnement mathématique. Toutefois, des débats croissants émergent quant à savoir si ces modèles comprennent véritablement et appliquent effectivement des connaissances mathématiques, ou s’ils se contentent de tirer parti de raccourcis pour le raisonnement mathématique. Une preuve essentielle et fréquemment observée est que, lorsque les questions mathématiques sont légèrement modifiées, les LLM peuvent produire des réponses incorrectes. Cela nous a motivés à évaluer la robustesse de la capacité de raisonnement mathématique des LLM en testant un large éventail de variations de questions. Nous introduisons le jeu de données adversarial Grade School Math (GSM-Plus), une extension de GSM8K enrichie par diverses perturbations mathématiques. Nos expériences menées sur 25 LLM et 4 techniques de promptage montrent que, bien que les LLM présentent des niveaux variés de compétences en raisonnement mathématique, leurs performances restent loin d’être robustes. En particulier, même pour des problèmes déjà résolus dans GSM8K, les LLM peuvent commettre des erreurs lorsqu’un nouvel énoncé est ajouté ou que la cible de la question est modifiée. Nous explorons également la possibilité d’obtenir une meilleure robustesse en combinant des méthodes de promptage existantes, en testant une approche itérative qui génère et vérifie chaque pensée intermédiaire en fonction de son objectif de raisonnement et du résultat du calcul.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp