Résolution de problèmes mathématiques complexes à l’aide de l’interprète de code GPT-4 avec vérification auto-suffisante basée sur le code

Les progrès récents observés dans les grands modèles linguistiques (LLM), tels que GPT-4 et PaLM-2, ont permis des avancées significatives dans la résolution de problèmes de raisonnement mathématique. En particulier, la dernière version de GPT-4 d’OpenAI, connue sous le nom de GPT-4 Code Interpreter, démontre des performances remarquables sur des jeux de données mathématiques exigeants. Dans ce travail, nous étudions l’impact du code sur l’amélioration de la capacité de raisonnement des LLM en introduisant différentes contraintes sur la fréquence d’utilisation du code du GPT-4 Code Interpreter. Nous constatons que son succès s’explique largement par ses compétences puissantes dans la génération et l’exécution de code, l’évaluation des résultats d’exécution, ainsi que la correction de ses solutions lorsqu’un résultat jugé irraisonnable est obtenu. À partir de cette observation, nous proposons une nouvelle méthode d’encodage efficace, appelée vérification auto-basée sur le code explicite (CSV, explicit code-based self-verification), destinée à renforcer davantage le potentiel de raisonnement mathématique du GPT-4 Code Interpreter. Cette méthode utilise un prompt zéro-shot adressé au GPT-4 Code Interpreter afin de l’inciter à utiliser le code pour vérifier automatiquement ses réponses. Lorsque l’état de vérification est enregistré comme « False », le modèle corrige automatiquement sa solution, suivant un principe similaire à celui que nous appliquons pour rectifier les erreurs lors d’un examen de mathématiques. En outre, nous observons que l’état du résultat de vérification reflète le niveau de confiance attaché à une solution, ce qui améliore l’efficacité de la méthode de vote majoritaire. Grâce au GPT-4 Code Interpreter combiné à la méthode CSV, nous atteignons une précision zéro-shot impressionnante sur le jeu de données MATH (passant de 53,9 % à 84,3 %).