HyperAIHyperAI

Command Palette

Search for a command to run...

Un nouveau modèle d’IA raisonne en silence, sans être grand

Depuis l’émergence de l’intelligence artificielle, l’idée dominante a longtemps été que l’augmentation de la taille des modèles — en termes de paramètres et de données d’entraînement — conduirait inévitablement à une intelligence générale. Cependant, des études récentes, comme celle de Hoffmann et al. (2022), suggèrent que de nombreux modèles de pointe sont sous-entraînés et présentent des paramètres surévalués, remettant en question l’efficacité de cette approche par brute force. Une des principales limites des modèles actuels réside dans leur méthode de raisonnement : ils sont contraints de « penser à voix haute » en anglais, étape par étape, produisant des tokens souvent inutiles et inefficaces. Ce processus, inspiré du Chain-of-Thought (CoT), ne reproduit pas véritablement la pensée humaine, qui est souvent silencieuse, intuitive et non linéaire. De plus, ces modèles adoptent une logique « tout ou rien » : ils ne peuvent pas ajuster dynamiquement leur niveau d’effort en fonction de la difficulté d’un problème. Face à ces limites, une nouvelle architecture, les Modèles de Raisonnement Hiérarchique (HRM), proposée par Wang et al. (2025), introduit une approche radicalement différente. Contrairement aux modèles traditionnels, l’HRM reasonne en silence, dans un espace latent riche et continu, proche de la manière dont les humains réfléchissent avant de formuler une réponse. Son architecture repose sur deux modules imbriqués : un module haut niveau (H), patient et stratégique, et un module bas niveau (L), rapide et exécutif. Le H-module fixe une stratégie générale, tandis que le L-module explore activement les solutions dans ce cadre, en effectuant des itérations récurrentes. À chaque cycle, le résultat du L-module est rétroinjecté dans le H, qui ajuste la stratégie pour la prochaine itération. Ce processus se répète jusqu’à ce qu’un critère d’arrêt soit atteint. La clé de l’efficacité de l’HRM réside dans son mécanisme d’Ajustement du Temps de Calcul (ACT), inspiré de la théorie des récompenses Q-learning. Après chaque segment de raisonnement, un réseau simple évalue si le modèle est suffisamment confiant pour s’arrêter ou s’il doit continuer. Cette capacité à décider intelligemment quand s’arrêter permet une utilisation optimisée des ressources : les problèmes simples sont résolus rapidement, tandis que les plus complexes reçoivent plus de temps de traitement. Les résultats sont frappants. Sur des tâches complexes comme les Sudoku extrêmes ou des labyrinthes de 30×30, l’HRM surpassé largement les modèles basés sur CoT, qui échouent presque systématiquement. En outre, avec seulement 27 millions de paramètres et un entraînement sur environ 1 000 exemples par tâche, l’HRM bat des modèles bien plus grands comme o3-mini ou Claude 3.7 sur le benchmark ARC-AGI, atteignant 40,3 % contre 34,5 % et 21,2 % respectivement. Son efficacité n’est pas seulement en termes de performance, mais aussi en termes de consommation de calcul : il atteint des performances équivalentes à celles d’un modèle fixe à 8 étapes, mais en utilisant en moyenne seulement 1,5 étapes, soit moins d’un quart des ressources. Ces résultats démontrent que l’architecture, et non la taille, est le facteur déterminant de la puissance de raisonnement. Contrairement aux Transformers classiques, dont les performances stagnent avec l’ajout de couches, l’HRM progresse presque linéairement avec l’augmentation du temps de calcul, prouvant sa capacité à exploiter efficacement les ressources supplémentaires. Cette approche marque une véritable révolution : la prochaine génération de modèles intelligents pourrait être plus petite, plus rapide, plus efficace — et surtout, plus humaine dans sa manière de raisonner.

Liens associés

Un nouveau modèle d’IA raisonne en silence, sans être grand | Articles tendance | HyperAI