
摘要
近期,大型推理模型(Large Reasoning Models, LRMs)通过扩展思维链(Chain-of-Thought, CoT)的长度,在代码推理任务中展现出卓越能力。然而,过长的推理轨迹带来了训练成本高、推理延迟大以及部署困难等显著挑战。尽管已有多种CoT压缩方法被提出以应对这一问题,但它们均面临固有的权衡:基于token级别的压缩方法常破坏语法与逻辑连贯性,而基于困惑度的步骤级方法则难以可靠识别出逻辑上关键的推理步骤。本文提出一种新颖的粗粒度到细粒度框架——ASAP(Anchor-guided, Surprisal-based Pruning),用于CoT压缩。ASAP首先通过锚点引导的剪枝策略,保留核心推理结构,从而高效缩小后续处理的搜索空间;随后,基于一种新颖的首token惊奇度(first-token surprisal)度量,实现面向逻辑的精细化剪枝,精准选取逻辑上不可或缺的推理步骤;最后,ASAP使模型能够在推理阶段自主生成并利用这些精炼的CoT,从而在代码生成任务中实现高效推理。实验结果表明,ASAP在多个代码生成基准测试中均达到当前最优的准确率,同时显著降低训练与推理开销。在具有挑战性的LiveCodeBench v4_v5基准测试中,相较于最强基线,我们的方法将token生成量减少23.5%,推理延迟降低43.5%,同时在Pass@1指标上仍保持36.19%的竞争力表现。这些结果揭示了构建强大且高效LRMs的一条极具前景的新方向。