Les modèles de raisonnement imitent le fonctionnement cérébral humain
Les modèles de langage à grande échelle (LLM), comme ChatGPT, sont capables d’écrire des essais ou de planifier un menu en quelques secondes. Cependant, ils peinaient traditionnellement sur les problèmes mathématiques et les raisonnements complexes. Récemment, une nouvelle génération de modèles, appelés modèles de raisonnement, a surmonté ces limites. Contrairement aux LLM classiques, ces modèles ne donnent pas de réponse immédiate ; ils procèdent par étapes, en simulant un processus de réflexion similaire à celui de l’humain. Des chercheurs du McGovern Institute du MIT, dirigés par Evelina Fedorenko, ont récemment démontré que le « coût cognitif » de ces modèles — c’est-à-dire l’effort nécessaire pour résoudre un problème — correspond étroitement à celui des humains. Ce parallèle, souligné dans une étude publiée dans PNAS, est frappant, car il n’a pas été conçu intentionnellement. Les modèles de raisonnement sont des réseaux de neurones artificiels, inspirés du fonctionnement du cerveau humain. Contrairement aux LLM antérieurs, qui s’appuyaient sur des motifs linguistiques, ces nouveaux modèles sont entraînés à décomposer les problèmes complexes en étapes successives. Pour y parvenir, les ingénieurs utilisent une méthode appelée apprentissage par renforcement : les modèles reçoivent des récompenses pour des réponses correctes et des pénalités pour des erreurs, ce qui les pousse à explorer activement l’espace des solutions. Cette approche a permis aux modèles de progresser significativement dans des tâches exigeantes, comme la résolution de problèmes mathématiques ou l’écriture de code. Andrea Gregor de Varda, chercheur postdoctoral dans l’équipe de Fedorenko, a mené une étude comparative entre humains et modèles. Il a soumis les deux groupes à sept types de problèmes, allant de l’arithmétique à des énigmes visuelles complexes (comme le défi ARC, où il faut déduire une transformation entre des grilles colorées). Pour les humains, il a mesuré le temps de réponse en millisecondes. Pour les modèles, il a compté le nombre de « tokens » générés dans leur chaîne de raisonnement interne — des unités de calcul non visibles pour l’utilisateur, mais essentielles pour suivre leur processus de réflexion. Résultat : plus un problème était difficile, plus les humains prenaient de temps, et plus les modèles produisaient de tokens. Les tâches les plus exigeantes, comme le défi ARC, ont révélé un parallèle frappant entre les deux. Ces résultats suggèrent que, du point de vue du coût cognitif, les modèles de raisonnement adoptent une approche humaine. Toutefois, les chercheurs insistent : cela ne signifie pas qu’ils imitent la pensée humaine. Leur processus interne s’effectue probablement dans un espace abstrait, non linguistique, similaire à la pensée humaine, qui n’utilise pas nécessairement le langage. Même si les modèles produisent des sorties en langage naturel durant leur raisonnement, celles-ci contiennent souvent des erreurs ou des éléments absurdes, ce qui indique que la pensée réelle se déroule ailleurs. Les chercheurs souhaitent maintenant explorer si ces modèles utilisent des représentations d’information similaires à celles du cerveau humain, et s’ils pourront gérer des problèmes nécessitant des connaissances du monde non explicitement présentes dans leurs données d’entraînement. En somme, ces modèles ne recréent pas l’intelligence humaine, mais leur convergence avec la manière dont les humains pensent est un progrès significatif, et un témoignage inattendu de l’évolution de l’intelligence artificielle.
