LLMs sont meilleurs raisonneurs que nous ne le pensions — et ce que cela change sur l’avenir de l’IA
Les modèles linguistiques à grande échelle (LLM) sont plus intelligents qu’on ne le croyait. Nous venons d’être brutalement rappelés à quel point nous comprenons peu encore les intelligences artificielles — d’une manière à la fois choquante et fascinante. Il s’avère que l’on peut améliorer significativement un modèle linguistique standard, non frontière, au-delà des performances de modèles dits « de pointe » ou « raisonnants », sans même une seule étape de formation supplémentaire. Cette découverte soulève une question troublante : tout le progrès de l’année dernière, consacré à développer des modèles de raisonnement, aurait-il été inutile ? Le renforcement par apprentissage (RL) est-il surestimé ? Sommes-nous en train de gaspiller des ressources dans la mauvaise direction ? La réponse est probablement non — mais cela ne diminue en rien l’importance de ce que cette découverte révèle sur la nature des LLM. Ce qui est fascinant, c’est que ces modèles ne fonctionnent pas comme nous le pensions. Ils ne « raisonnent » pas vraiment au sens humain du terme. Ce qu’ils font, c’est exploiter des schémas cachés dans leurs données d’entraînement, et leurs performances peuvent être considérablement augmentées par des techniques simples de prompting ou de stratégie d’inférence, comme la génération multiple ou la sélection par consensus. Pourquoi les LLM sont-ils considérés comme de mauvais raisonneurs ? Parce qu’ils ne suivent pas une logique formelle, comme un humain le ferait. Ils ne « pensent » pas étape par étape. Au lieu de cela, ils devinent la suite la plus probable d’un raisonnement, en s’appuyant sur des corrélations statistiques. C’est pourquoi, lorsqu’on leur pose une question complexe, ils peuvent produire des réponses plausibles mais erronées, ou des raisonnements convaincants mais faux. Leur « intelligence » est une illusion de cohérence, pas une véritable compréhension. Pourtant, cette illusion peut être exploitée. En utilisant des méthodes comme le « chain-of-thought » (chaîne de raisonnement), ou en demandant au modèle de générer plusieurs réponses avant de choisir celle qui est la plus cohérente, on peut tirer parti de ses capacités latentes. Et ce, sans re-entraîner le modèle. Cela signifie que l’essentiel de la puissance réside déjà dans le modèle lui-même — pas dans son architecture ou son entraînement, mais dans la manière dont on l’interroge. Cela ne rend pas inutile l’entraînement ou le RL, loin de là. Ces méthodes permettent de mieux aligner les modèles sur les objectifs humains, de réduire les biais, d’améliorer la fiabilité. Mais cela change la perspective : le progrès n’est plus seulement dans la taille ou la complexité du modèle, mais dans la manière de l’interagir. Le vrai défi n’est plus de construire des LLM plus gros, mais de comprendre comment les faire fonctionner au mieux. En somme, les LLM ne raisonnent pas comme nous, mais ils peuvent simuler le raisonnement avec une efficacité surprenante. Et ce que nous apprenons aujourd’hui, c’est que leur intelligence n’est pas une question de puissance brute, mais de méthode. C’est une leçon profonde, non seulement pour l’IA, mais pour la façon dont nous comprenons la pensée elle-même.
