17 天前
LLM 的思维链推理是一场幻觉吗?基于数据分布的视角
Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu

摘要
思维链(Chain-of-Thought, CoT)提示已被证明能够提升大型语言模型(Large Language Model, LLM)在各类任务上的表现。通过该方法,LLM 似乎能够在给出答案之前生成类似人类的推理步骤(即 CoT 推理),这常常使人误以为模型正在进行有意识的推断过程。然而,一些初步研究指出,CoT 推理可能比表面看起来更为浅层,这促使我们进一步深入探究。本文从数据分布的视角出发,研究 CoT 推理是否反映了模型从分布内数据中学习到的结构化归纳偏置,从而使其能够有条件地生成与训练阶段所见相似的推理路径。因此,其有效性从根本上受限于训练数据与测试查询之间的分布差异程度。基于这一视角,我们从任务、长度和格式三个维度对 CoT 推理进行剖析。为系统探究每个维度,我们设计了 DataAlchemy——一个隔离且可控的环境,用于从零开始训练 LLM,并在多种分布条件下对其进行系统性探测。实验结果表明,CoT 推理是一种脆弱的幻象,一旦超出训练数据的分布范围,便会迅速消失。本研究深化了我们对 CoT 推理在何种情况下以及为何会失效的理解,凸显了实现真正且可泛化的推理能力仍是当前面临的重要挑战。