HyperAI

Résumé

Les modèles de langage à grande échelle (LLM) présentent une capacité émergente de raisonnement mathématique en « zéro-shot », généralement manifestée sous la forme de raisonnement en chaîne de pensée (chain-of-thought, CoT), ce phénomène apparaissant uniquement avec une augmentation significative de la taille du modèle. Cependant, plusieurs études empiriques indiquent que cette performance est réservée aux LLM dont la taille dépasse largement 50 milliards de paramètres. Parallèlement, les neuroscientifiques de l’éducation suggèrent qu’une manipulation symbolique algébrique devrait être introduite au même moment que les problèmes arithmétiques à mots, afin de modulariser trois étapes clés : la traduction du langage naturel en formulation symbolique, la manipulation symbolique de cette formulation, puis le calcul final. Dans cet article, nous partons de l’hypothèse que des modèles de langage plus petits, initialement faibles en raisonnement multi-étapes, peuvent toutefois atteindre une performance raisonnable en raisonnement arithmétique si les problèmes à mots sont posés sous la forme d’une tâche « formaliser puis résoudre ». Dans notre architecture, que nous appelons SYRELM, le modèle de langage joue le rôle de traducteur, convertissant les questions arithmétiques en langage naturel vers une description formelle (FL, formal language). Un solveur symbolique évalue alors l’expression FL pour produire la réponse. Un petit modèle de langage gelé, doté d’un adaptateur à faible rang efficace, est capable de générer des expressions FL intégrant des descriptions en langage naturel du problème (par exemple, les noms de variables et leurs rôles, les expressions formelles combinant ces variables, etc.). Nous utilisons un apprentissage par renforcement basé sur le gradient de politique pour entraîner le modèle adapté, en s’appuyant sur le solveur symbolique non différentiable. Cette approche marque une rupture nette avec les développements récents des LLM augmentés d’outils, où les outils externes (calculatrice, recherche Web, etc.) sont généralement isolés du processus d’apprentissage du modèle. SYRELM montre des améliorations considérables (par exemple, une augmentation absolue de 30,65 points de précision sur le jeu de données SVAMP, avec le modèle GPT-J 6B) par rapport aux LLM de base, tout en maintenant un environnement d’expérimentation facile à diagnostiquer, interprétable et accessible à la majorité des chercheurs.

Résumé

Subhabrata Dutta Joykirat Singh Ishan Pandey Sunny Manchanda Soumen Chakrabarti Tanmoy Chakraborty

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Subhabrata Dutta Joykirat Singh Ishan Pandey Sunny Manchanda Soumen Chakrabarti Tanmoy Chakraborty

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Subhabrata Dutta Joykirat Singh Ishan Pandey Sunny Manchanda Soumen Chakrabarti Tanmoy Chakraborty

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Les LMs frugaux entraînés pour invoquer des solveurs symboliques atteignent un raisonnement arithmétique efficace en termes de paramètres

Subhabrata Dutta Joykirat Singh Ishan Pandey Sunny Manchanda Soumen Chakrabarti Tanmoy Chakraborty

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Les LMs frugaux entraînés pour invoquer des solveurs symboliques atteignent un raisonnement arithmétique efficace en termes de paramètres

Subhabrata Dutta Joykirat Singh Ishan Pandey Sunny Manchanda Soumen Chakrabarti Tanmoy Chakraborty

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Les LMs frugaux entraînés pour invoquer des solveurs symboliques atteignent un raisonnement arithmétique efficace en termes de paramètres

Subhabrata Dutta Joykirat Singh Ishan Pandey Sunny Manchanda Soumen Chakrabarti Tanmoy Chakraborty

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters