Les modèles de raisonnement semblent performants… jusqu’à ce qu’ils échouent catastrophiquement
Les modèles de raisonnement, bien qu’ils réussissent remarquablement sur des tâches simples, échouent brutalement lorsque la complexité des problèmes augmente. Bien que les grands modèles linguistiques (LLM) aient fait des progrès notables dans les tâches de raisonnement, des études récentes montrent qu’ils subissent des échecs catastrophiques dès que la complexité dépasse un certain seuil. Ce phénomène est particulièrement visible dans les modèles de raisonnement à grande échelle (LRM), une variante des LLM spécialisés par une fine-tuning ciblée sur des raisonnements étape par étape et une auto-vérification. Ces LRMs affichent des performances impressionnantes sur des benchmarks comme NLGraph, suscitant des attentes élevées : certains les considèrent capables de raisonnement généralisé, voire d’innovation dans des domaines exigeants comme les mathématiques, la physique, la médecine ou le droit. Cependant, en repensant ces résultats à la lumière d’une évaluation plus rigoureuse, nous constatons que la complexité des problèmes utilisés dans les benchmarks actuels reste limitée. Pour mieux comprendre cette limite, nous avons conçu un nouveau jeu de données, le Deep Reasoning Dataset (DeepRD), accompagné d’un processus génératif capable de produire un nombre illimité d’exemples à complexité croissante. Grâce à ce jeu de données, nous avons évalué la performance des LRMs sur deux types de tâches : la connectivité de graphes et la planification de preuves en langage naturel. Les résultats révèlent un déclin brutal de la performance dès que la complexité dépasse un certain seuil, et ce, sans signe de généralisation. Autrement dit, les modèles ne parviennent pas à s’adapter à des problèmes plus complexes, même s’ils ont été entraînés sur des cas similaires. En outre, en comparant la complexité des problèmes du DeepRD à celle des graphes de connaissance réels, des graphes d’interaction et des ensembles de preuves, nous constatons que la majorité des exemples du monde réel se situent dans la zone de succès des LRMs. Toutefois, les queues longues de ces distributions — c’est-à-dire les cas extrêmes ou rares — exposent un potentiel d’échec considérable. Ces cas, bien que rares, sont critiques dans des applications pratiques, où une erreur peut avoir des conséquences importantes. Cette analyse souligne donc une réalité paradoxale : les LRMs sont très utiles dans des contextes à complexité modérée, où ils peuvent fournir des résultats fiables et efficaces. Mais leur dépendance à la complexité des exemples d’entraînement les rend vulnérables face à des problèmes réels qui dépassent ces limites. À court terme, ils restent des outils précieux, mais à long terme, leur succès dépendra de la mise au point de nouvelles méthodes capables de généraliser au-delà de la complexité observée dans les données d’apprentissage. Sans cela, leur utilisation dans des domaines critiques restera risquée.
