HyperAIHyperAI
il y a 15 jours

Les modèles NLP sont-ils réellement capables de résoudre des problèmes mathématiques simples formulés en langage naturel ?

Arkil Patel, Satwik Bhattamishra, Navin Goyal
Les modèles NLP sont-ils réellement capables de résoudre des problèmes mathématiques simples formulés en langage naturel ?
Résumé

Le problème de la conception de solveurs NLP pour les problèmes arithmétiques à mots (MWP) a suscité un intérêt de recherche soutenu et des progrès constants en termes de précision sur les tests. Étant donné que les solveurs existants atteignent des performances élevées sur les jeux de données de référence dédiés aux MWP élémentaires, qui consistent en des problèmes arithmétiques à une inconnue, ces derniers sont souvent considérés comme « résolus », entraînant un déplacement de l’attention de la recherche vers des MWP plus complexes. Dans cet article, nous nous concentrons spécifiquement sur les MWP en anglais enseignés au cours des quatre premières années scolaires. Nous fournissons des preuves solides selon lesquelles les solveurs MWP existants s’appuient sur des heuristiques superficielles pour atteindre de hautes performances sur les jeux de données de référence. À cet effet, nous montrons que des solveurs MWP ne disposant pas de l’information sur la question posée dans le problème peuvent tout de même résoudre une grande proportion de ces problèmes. De même, des modèles traitant les MWP comme des « sacs de mots » parviennent également à atteindre une précision étonnamment élevée. En outre, nous introduisons un nouveau jeu de données de défis, appelé SVAMP, construit en appliquant des variations soigneusement choisies à des exemples extraits de jeux de données existants. La précision maximale atteinte par les meilleurs modèles d’état de l’art est significativement plus faible sur SVAMP, ce qui démontre qu’il reste beaucoup à accomplir même pour les MWP les plus simples.

Les modèles NLP sont-ils réellement capables de résoudre des problèmes mathématiques simples formulés en langage naturel ? | Articles de recherche récents | HyperAI