Atteindre >97 % sur GSM8K : Une compréhension approfondie des problèmes rend les LLM de meilleurs résolveurs de problèmes mathématiques à mots

La technique de promptage en chaîne de raisonnement (Chain-of-Thought, CoT) a amélioré les performances des grands modèles linguistiques (LLM) sur diverses tâches de raisonnement. Toutefois, la CoT reste insuffisante face aux problèmes mathématiques complexes, souffrant généralement de trois défauts majeurs : des erreurs d’interprétation sémantique, des erreurs de calcul et des erreurs de saut de étape. Les travaux antérieurs se sont principalement concentrés sur la correction des erreurs de calcul et des erreurs de saut de étape, tout en négligeant les erreurs d’interprétation sémantique, qui constituent pourtant le principal facteur limitant la capacité de raisonnement des LLM. À cet effet, nous proposons une méthode simple mais efficace, nommée Deeply Understanding the Problems (DUP), visant à améliorer la capacité des LLM à résoudre des problèmes mathématiques en corrigeant les erreurs d’interprétation sémantique. Le cœur de notre approche réside dans l’encouragement des LLM à comprendre profondément les énoncés et à extraire les informations clés nécessaires à un raisonnement optimal. Des expériences étendues sur 10 benchmarks diversifiés de raisonnement montrent que notre méthode DUP surpasse systématiquement les autres approches existantes, avec un écart significatif. Plus encourageant encore, DUP atteint un nouveau résultat d’état de l’art (SOTA) sur le benchmark GSM8K, avec une précision de 97,1 % dans un cadre zero-shot.