HyperAI
il y a 7 jours

Découpler la connaissance et le raisonnement dans les LLM : Une exploration basée sur la théorie des deux systèmes cognitifs

Mutian Yang, Jiandong Gao, Ji Wu
Découpler la connaissance et le raisonnement dans les LLM : Une exploration basée sur la théorie des deux systèmes cognitifs
Résumé

Bien que les modèles de langage à grande échelle (LLMs) utilisent à la fois des connaissances et un raisonnement pendant l'inférence, la capacité à distinguer entre ces deux éléments joue un rôle clé dans l'analyse, l'interprétabilité et le développement des modèles. Inspirés par la théorie cognitive à deux systèmes, nous proposons un cadre d'attribution de la cognition afin de séparer la contribution des connaissances et du raisonnement. En particulier, la cognition des LLMs est décomposée en deux phases distinctes mais complémentaires : la récupération de connaissances (Phase 1) et l'ajustement du raisonnement (Phase 2). Pour séparer ces phases, les LLMs sont sollicités pour générer des réponses selon deux modes cognitifs différents : la pensée rapide et la pensée lente. La performance dans ces différents modes est analysée afin de quantifier la contribution respective des connaissances et du raisonnement. Cette architecture est appliquée à 15 LLMs sur 3 jeux de données. Les résultats révèlent : (1) l'ajustement du raisonnement est spécifique au domaine, bénéfique pour les domaines intensifs en raisonnement (par exemple, les mathématiques, la physique et la chimie), et potentiellement nuisible pour les domaines intensifs en connaissances. (2) L'augmentation de la taille des paramètres améliore à la fois les connaissances et le raisonnement, avec une amélioration plus marquée pour les connaissances. En outre, l'augmentation des paramètres rend le raisonnement des LLMs significativement plus prudent, tout en augmentant modérément leur intelligence. (3) Les connaissances résident principalement dans les couches inférieures du réseau, tandis que le raisonnement opère dans les couches supérieures. Notre cadre permet non seulement de comprendre les LLMs sous un angle « découplé », mais offre également de nouvelles perspectives sur les recherches existantes, notamment les lois d'échelle, l'édition hiérarchique des connaissances, et les limites du raisonnement des petits modèles.