HyperAIHyperAI
il y a 17 jours

Le raisonnement en chaîne des LLM est-il une illusion ? Une perspective fondée sur la distribution des données

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu
Le raisonnement en chaîne des LLM est-il une illusion ? Une perspective fondée sur la distribution des données
Résumé

La méthode de pilotage par chaîne de raisonnement (Chain-of-Thought, CoT) a démontré une amélioration des performances des grands modèles linguistiques (Large Language Models, LLM) sur diverses tâches. Grâce à cette approche, les LLM semblent produire des étapes de raisonnement analogues à celles d’un humain avant de fournir une réponse (appelé raisonnement CoT), ce qui suscite souvent l’impression qu’ils procèdent à des inférences intentionnelles. Toutefois, certaines premières observations suggèrent que ce raisonnement CoT pourrait être plus superficiel qu’il n’y paraît, ce qui nous a motivés à approfondir cette question. Dans cet article, nous étudions le raisonnement CoT à travers le prisme de la distribution des données, et investiguons si ce raisonnement reflète une biais inductif structuré, appris à partir de données conformes à la distribution d’entraînement, permettant au modèle de générer conditionnellement des chemins de raisonnement approximatifs de ceux observés durant l’apprentissage. Par conséquent, son efficacité est fondamentalement limitée par le degré de divergence entre la distribution des données d’entraînement et celle des requêtes de test. À l’aide de cette perspective, nous analysons le raisonnement CoT selon trois dimensions : tâche, longueur et format. Pour étudier chacune de ces dimensions, nous avons conçu DataAlchemy, un environnement isolé et contrôlé permettant d’entraîner des LLM de zéro et de les sonder systématiquement sous diverses conditions de distribution. Nos résultats révèlent que le raisonnement CoT est une illusion fragile qui disparaît dès qu’il est poussé au-delà des limites des données d’entraînement. Ce travail apporte une compréhension plus approfondie de la raison pour laquelle et dans quelles conditions le raisonnement CoT échoue, soulignant ainsi le défi persistant d’atteindre un raisonnement véritablement généralisable.