HyperAI超神经
7 days ago

解耦大语言模型中的知识与推理:基于认知双系统理论的探索

Mutian Yang, Jiandong Gao, Ji Wu
解耦大语言模型中的知识与推理:基于认知双系统理论的探索
摘要

虽然大型语言模型(LLMs)在推理过程中同时利用知识和推理能力,但区分这两者的能力在模型分析、可解释性以及开发中起着关键作用。受双系统认知理论的启发,我们提出了一种认知归因框架,用于解耦知识和推理的贡献。具体而言,LLMs的认知过程被分解为两个截然不同但相互补充的阶段:知识检索(阶段一)和推理调整(阶段二)。为了分离这两个阶段,我们通过提示LLMs在两种不同的认知模式下生成答案,即快速思维和慢速思维。通过对不同认知模式下性能的分析,我们量化了知识和推理的贡献。该架构被应用于3个数据集上的15个LLMs。实验结果表明:(1)推理调整具有领域特定性,对推理密集型领域(如数学、物理和化学)有益,而可能对知识密集型领域产生不利影响。(2)参数扩展同时提升了知识和推理能力,其中知识能力的提升更为显著。此外,参数扩展使LLMs的推理更加谨慎,而智力水平则适度提升。(3)知识主要存在于网络的低层,而推理则在高层进行。我们的框架不仅有助于从“解耦”的角度理解LLMs,还为现有研究提供了新的见解,包括扩展定律(scaling laws)、分层知识编辑(hierarchical knowledge editing)以及小模型推理能力的局限性。