12 days ago
《模仿游戏:图灵机模仿者是长度泛化的推理者》
Zhouqi Hua, Wenwei Zhang, Chengqi Lyu, Yuzhe Gu, Songyang Gao, Kuikun Liu, Kai Chen

摘要
长度泛化,即解决比训练过程中观察到的序列更长的问题的能力,是基于Transformer的大规模语言模型(LLM)面临的核心挑战之一。尽管现有研究主要集中在算术运算和符号操作任务的数据驱动方法上,但这些方法往往具有任务特定性,整体性能有限。为了寻求更为通用的解决方案,本文关注了一类更广泛的可计算推理问题,即可以通过算法解决的问题,因此也可以由图灵机解决。从这一角度出发,本文提出了图灵机模仿学习(TAIL)以提升LLM的长度泛化能力。TAIL通过计算机程序合成模仿图灵机执行过程的思维链(CoT)数据,将推理步骤线性扩展为原子状态,从而减轻捷径学习,并引入显式内存访问机制以减少基本操作中动态和长距离数据访问的难度。为了验证TAIL的可靠性和普适性,我们构建了一个涵盖8类算法和18个任务的具有挑战性的合成数据集。在没有额外复杂技巧的情况下,TAIL仅使用合成数据显著提升了Qwen2.5-7B在各种任务上的长度泛化能力和性能,超越了先前的方法和DeepSeek-R1。实验结果表明,对于长度泛化而言,图灵机中的关键概念而非思维方式是TAIL不可或缺的部分。通过这些关键概念,模型在其注意力层中表现出与图灵机特性一致的读写行为。本研究为未来利用合成数据进行LLM推理学习的研究提供了一个有前景的方向。