Command Palette
Search for a command to run...
Xilin Wei Xiaoran Liu Yuhang Zang Xiaoyi Dong Yuhang Cao Jiaqi Wang Xipeng Qiu Dahua Lin

摘要
隐式思维链(Implicit Chain-of-Thought, CoT)方法为大型语言模型(LLMs)提供了一种有前景且token高效的替代方案,相较于显式CoT推理,具有显著优势。然而,持续存在的性能差距限制了隐式CoT方法的实际应用。通过扩大隐式CoT方法的计算预算,我们识别出一个核心的潜在不稳定性问题:当增加隐式推理token的数量以提升性能时,训练过程往往变得不稳定甚至崩溃。我们的分析表明,这种不稳定性源于潜在表示趋于同质化,丧失了语义多样性,其根本原因在于现有隐式CoT方法在步骤层级上的监督不足。为解决该问题,我们提出SIM-CoT——一种即插即用的训练模块,通过引入步骤层级的监督机制,稳定并丰富隐式推理空间。具体而言,SIM-CoT在训练阶段引入一个辅助解码器,将每个隐式token与其对应的显式推理步骤对齐,确保潜在状态能够捕捉到具有区分性和语义意义的信息。在推理阶段,该辅助解码器被移除,从而在不增加任何计算开销的前提下,保持了隐式CoT方法原有的高效性。此外,该辅助解码器还增强了隐式推理的可解释性:通过将每个潜在token投影到显式推理词汇空间中,实现了对每一步推理语义角色的可视化分析与诊断。实验结果表明,SIM-CoT显著提升了多种隐式CoT方法在域内任务上的准确率以及域外任务上的稳定性。在GPT-2上,其将Coconut基线性能提升+8.2%;在LLaMA-3.1 8B上,将CODI基线提升+3.0%。在可扩展性方面,SIM-CoT在GPT-2上相比显式CoT基线性能提升2.1%,同时实现2.3倍的token效率提升;在更大规模模型如LLaMA-3.1 8B上,也显著缩小了与显式CoT方法之间的性能差距。